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图 灵 社 区 的 电子 书 没有 采用 专 有 客户 
端 ， 您 可 以 在 任意 设备 上 ， 用 自己 喜 
欢 的 浏览 器 和 PDF 阅读 器 进行 阅读 。 
但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 民 知 和 
觉悟 ， 与 我 们 共同 保护 知识 产权 。 
如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 对 
该 用 户 实施 包括 但 不 限于 关闭 该 帐号 
等 维权 措施 ， 并 可 能 追究 法 律 责任 。 
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酒 卷 生 / 口 

浦和 和 出身。 环境 学 博士 毕业 。 就 职 于 株式 会 
社 DRECOM 数 据 分 析 部 门 ， 擅 长 人 类 行动 
日 志 的 分 析 。 现 主要 从 事 社 交游 戏 和 在 线 服 
务 的 日 志 分 析 工 作 。 


里 洋 平 

种 子 岛 出 身 。 就 职 于 株式 会 社 DRECOM 数 
据 分 析 部 门 ， 擅 长 使 用 民 语 言 进行 数据 分 
析 。 现 主要 从 事 数 据 分 析 环 境 的 搭建 和 数据 
分 析 工 作 。 合 著 有 《数据 科学 养 成 读本 》 
( 技术 评论 社 ) 、《R 包 使 用 手册 》 ( 东京 
图 书 ) 。 
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肖 峰 

日 本 东京 工业 大 学 计算 机 工学 博士 。 曾 在 日 
本 乐天 株式 会 社 乐天 技术 研究 所 从 事 研究 工 
作 。2013 年 回国 后 加 入 新 浪 ， 现 任 新 浪 个 性 
化 推荐 团队 算法 负责 人 。 拥 有 丰富 的 数据 分 
析 与 建 模 能 
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图 、 


分 析 框架 ， 然后 根据 该 框架 , 结合 8 个 真实 的 案例 ， 
各 种 商业 问题 的 流程 , 让 读者 在 解决 问题 的 过 程 中 学 习 各 种 数据 分 析 方 法 , 包括 柱状 


研究 IV. DTP274 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2017) 第 083684 号 


内 容 提 要 
本 书 由 实战 经 验 丰富 的 两 位 数据 分 析 师 执笔 , 首先 介绍 了 商业 领域 里 通用 的 数 
详细 解说 了 通过 数据 分 析 解 决 


































































































































































































交叉 列表 统计 、AB 测 试 、 多 元 回归 分 析 、 逻 辑 回归 分 析 、 主 成 分 分 析 、 聚 类 、 决 





























策 树 分 析 、 机 器 学 习 等 。 特别 是 书 中 使 用 的 数据 都 是 未 经 清洗 的 原始 数据 , 能 够 让 读 


者 了 解 真实 的 数据 分 析 流 程 , 避免 纸上谈兵 。 
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本 书 适 合 各 大 公司 的 算法 工程 师 、 数 据 分 析 师 、 数 据 挖掘 工程 师 以 及 今后 立志 
和 相关 工作 的 高 校 学 生 阅 读 。 
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译 者 序 





伴随 着 互联 网 的 高 速 发 展 和 以 云 计算 为 代表 的 技术 创新 ， 过 去 难以 
收集 和 存储 的 大 量 数据 得 以 集中 管理 和 使 用 ， 大 数据 时 代 已 经 来 临 。 然 
而 ， 如 何 发 掘 大 数据 这 座 金 矿 ， 使 之 在 商业 领域 体现 其 最 终 价 值 ， 这 属 
于 数据 科学 ( Data Science ) 的 范畴 ， 也 是 数据 科学 家 (Data Scientist ) 
的 工作 职责 所 在 。 



























































要 想 成 为 一 名 合格 的 数据 科学 家 ， 不 仅 需要 拥有 深厚 的 统计 学 等 理 
论 基础 ， 更 需要 有 较 强 的 业务 能 力 、 对 数据 的 敏感 性 以 及 处 理 实际 商业 
数据 的 经 验 。 对 于 这 一 点 我 深 有 体会 。 在 日 本 留学 期 间 我 有 幸 进 入 乐天 
技术 研究 所 ( Rakuten Institute of Technology )， 这 也 是 我 第 一 次 接触 到 
生产 环境 下 的 数据 。 然 而 在 面 对 公 司 实际 问题 时 ， 我 拿 着 海量 的 各 种 日 
志 数 据 却 经 常 有 种 不 知 从 何 下 手 的 感觉 。 
























































这 是 因为 现实 中 我 们 需要 面 对 的 不 再 是 抽象 的 理论 ， 而 是 真实 的 生 
产 环境 下 的 问题 ， 并 且 生 产 环境 下 的 数据 噪声 远 比 实验 室 中 使 用 的 数据 
要 高 。 面 对 这 些 问 题 ， 作 者 在 本 书 中 给 出 了 很 好 的 答案 ， 在 理论 与 实际 
之 间 搭 建 了 一 座 桥梁 。 本 书 没有 教条 似 的 说 教 ， 而 是 使 用 某 个 游戏 公司 
实际 工作 中 所 遇 到 的 问题 作为 案例 ， 让 读者 在 解决 具体 问题 的 过 程 中 理 
解数 据 分 析 的 整个 流程 。 特 别 是 当 涉及 逻辑 回归 、 聚 类 、 主 成 分 分 析 等 
理论 性 较 强 的 内 容 时 ， 本 书 没 有 使 用 大 篇 幅 的 理论 解释 和 数学 推导 ， 而 
是 在 实践 过 程 中 对 各 类 机 融 学 习 算 法 进行 详尽 而 又 通俗 易 懂 的 介绍 。 更 
难能可贵 的 是 ， 为 了 使 得 本 书 的 内 容 更 贴近 生产 实践 ， 书 中 使 用 的 各 种 
案例 的 数据 均 为 未 经 清洗 的 原始 日 志 数 据 ， 这 使 得 读者 可 以 接触 到 实际 
生产 环境 下 的 数据 ， 从 而 避免 了 纸上谈兵 。 






























































本 书 适合 各 大 公司 的 数据 分 析 师 、 算 法 工程 师 、 数 据 挖掘 工程 师 以 
及 今后 立志 从 事 数 据 分 析 和 数据 挖掘 工作 的 高 校 学 生 阅读 。 
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iv | 译 者 序 


在 翻译 本 书 的 过 程 中 ， 非 常 感谢 图 灵 公 司 的 各 位 编辑 所 给 予 的 
助 。 同 时 也 感谢 我 的 麦子 李 春 姬 在 怀孕 期 间 对 我 工作 的 默默 文 持 ， 感 询 
我 的 儿子 明 诚 一 直 很 冬 地 陪伴 。 和 希望 本 书 能 够 对 读者 在 实际 数据 分 析 工 
作 中 有 所 帮助 。 
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肖 峰 
2016 年 12 月 于 北京 
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如 果 你 每 天 都 在 和 数据 分 析 业 务 打 交道 ， 那 么 很 可 能 经 常 听 到 下 述 


说 法 。 


DNm> 


G. 


数据 分 析 在 很 多 情况 下 对 提升 工作 效率 很 有 帮助 。 根 据 我 们 的 亲身 








在 数据 收集 和 分 析 上 投入 了 巨大 的 成 本 ， 然 而 效果 和 预期 相距 甚 远 。 
从 数据 分 析 部 门 拿 到 了 详细 的 报告 ,然而 内 容 却 非常 星 涩 难 懂 。 
数据 大 致 都 有 了 ， 然 而 因为 工作 很 已 ， 没 能 很 好 地 进行 分 析 利 用 。 
数据 全 部 都 保存 了 下 来 ， 但 是 却 不 知道 如 何 才能 很 好 地 利用 这 
些 数据 。 

虽然 每 天 都 会 检查 和 核对 重要 的 数据 ， 但 对 于 如 何 利用 这 些 数 
据 来 指导 手头 的 工作 ， 却 还 不 是 很 清楚 。 

我 们 靠 的 是 相关 负责 人 的 业务 经 验 ， 这 个 比 数据 更 加 可 靠 。 
数据 ? 分 析 ? 还 是 算 了 吧 ， 先 把 自己 能 力 范 围 内 的 事情 做 好 再 说 。 



































经 验 ， 在 各 行 各 业 的 不 同 领域 ,尽管 数据 分 析 所 起 的 效果 大 小 可 能 有 差 
异 , 但 确实 有 着 非常 多 的 成 功 案例 。 然 而 ， 正 如 上 述 各 种 说 法 所 反映 的 
那样 ， 实 际 上 在 企业 内 部 的 各 个 部 门 里 ， 还 有 很 多 数据 分 析 的 问题 没有 





解决 。 


站 在 分 析 者 的 角度 来 看 ， 关 于 上 述 各 种 说 法 所 产生 的 背景 ， 可 以 大 
体 总 结 出 以 下 几 点 。 


A' 





数据 分 析 ， 特 别 是 机 器 学 习 等 ， 被 误 认为 是 一 种 普通 人 无 法 理 
解 的 魔法 一 样 的 东西 。 





.数据 分 析 只 是 在 利用 复杂 的 数值 分 析 来 对 实际 现象 做 出 解释 。 
.数据 是 保存 了 下 来 ， 但 数据 分 析 还 需要 时 间 和 人 力 等 。 

.数据 是 保存 了 下 来 ， 但 是 却 不 知 如 何 来 做 数据 分 析 。 

， 虽然 通过 营业 额 等 重要 的 数据 能 够 把 握 经 营 的 现状 ， 然 而 这 些 
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Vvi | 前 言 





数据 对 于 今后 的 经 营 策略 有 何 指导 作用 ， 却 不 甚 明了 。 

F'， 不 知道 数据 分 析 和 业务 经 验 其 实 可 以 优势 互补 ， 并 产生 协同 
效应 。 

G'， 即便 是 在 那些 只 需要 一 味 蛮 干 的 工作 中 ， 如 果 同 时 使 用 数据 分 
析 的 手法 ， 也 可 以 有 效 地 提高 工作 质量 。 然 而 很 多 人 却 不 知道 


这 一 点 O 























一 般 来 说 ， 为 了 成 功 地 完成 某 件 事 ， 我 们 需要 经 历 “知道 、 理 解 、 
掌握 、 精 通 ” 这 几 个 阶段 。 要 想 从 一 个 阶段 迈 入 下 一 个 阶段 ， 就 必须 跨 
越 阶 段 间 的 巨大 障碍 。 从 上 述 各 种 问题 来 看 ， 虽 然 “ 不 知道 、 无 法 理解 、 
无 法 掌握 、 无 法 精通 ”这 些 阶 段 各 有 不 同 ， 但 问题 都 可 以 归结 到 同一 
点 ， 那 就 是 不 了 解数 据 分 析 在 商业 领域 是 完全 可 以 获得 成 功 的 。 

也 就 是 说 ， 我 们 或 许可 以 将 上 述 这 些 问 题 的 原因 归结 为 信息 荐 乏 。 

正 因 如 此 ， 我 们 希望 通过 本 书 向 读者 展示 商业 活动 中 数据 分 析 的 一 
些 经 典 案 例 ， 通 过 这 些 案 例 来 向 读者 揭示 数据 分 析 的 作用 。 本 书 的 读者 
对 象 主 要 有 : 



































@ 关注 商业 数据 分 析 的 人 
e@ 在 实际 工作 中 从 事 商业 数据 分 析 的 人 


所 谓 关 注 商 业 数 据 分 析 的 人 ， 是 指 将 来 打算 从 事 数据 分 析 工 作 的 学 
生 , 或 者 工作 没 多 久 的 商业 人 士 ， 以 及 想 把 数据 分 析 作 为 自身 技能 之 一 
的 商业 精英 ， 还 有 正在 筹划 设立 数据 分 析 部 门 的 公司 经 营 管理 层 。 
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前 言 vll 





















































































































































































































































































































































数据 分 析 的 现状 和 观点 
第 1 章 
数据 科学 家 的 工作 
第 2 训 
商业 数据 分 析 流程 
数据 分 析 的 基础 数据 分 析 的 应 用 
主要 面向 对 数据 分 析 感 兴趣 的 读者 主要 面向 数据 分 析 的 从 业 人 员 
第 章 第 章 
为 什么 销售 额 会 减少 根据 过 去 的 行为 能 否 预测 当下 
第 4 章 _ 第 8 章 
什么 样 的 顾客 会 选择 离 应 该 选择 什么 样 的 目标 用 户 群 
第 5 章 第 9 章 
哪 种 广告 的 效果 更 好 有 暴行 为 的 用 户 会 是 长 期 用 户 
第 6 章 第 10 章 
如 何 通过 各 种 广 告 的 组 合 获得 如 何 让 组 队 游戏 充满 乐趣 
更 多 的 
统计 处 理 方法 
统计 处 理 方法 . 涩 辑 回 归 分 析 . 聚 类 
. 柱状 图 交叉 列 表 统 计 由 2 让 “决策 树 分 析 
* 统计 学 假设 检验 . 多 元 回归 分 “ 机 器 学 习 
| 检验 认定 的 原因 对 于 结果 有 了 | 利用 多 种 统计 方法 的 组 合 来 | 
' 何 影响 ， 属 于 验证 型 的 数据 ， ' 解决 商业 领域 的 课题 ， 属 于 
Ee ; 定制 型 的 数据 分 析 
本 书 的 结构 和 目标 读者 


第 1 章 主 要 介绍 从 事 商 业 数 据 分 析 的 数据 科学 家 的 现实 情况 。 第 2 
章 主 要 介绍 在 商业 领域 里 通用 的 数据 分 析 框 架 。 

从 第 3 章 开 始 ， 基 本 上 就 是 根据 第 2 章 提 到 的 数据 分 析 框 架 来 介绍 
具体 的 数据 分 析 案例 。 第 3 章 到 第 6 章 主要 介绍 数据 分 析 的 基础 。 因 为 
这 部 分 是 基础 的 东西 ， 所 以 在 商业 环境 下 很 少 有 机 会 用 到 ， 但 本 书 会 尽 
可 能 地 将 基础 知识 和 实际 业务 相 结 合 ， 对 商业 数据 分 析 相 关 的 观点 和 实 
际 的 业务 进行 充分 说 明 。 

从 第 7 章 到 第 10 章 的 后 半 部 分 是 具体 案例 分 析 ， 这 部 分 内 容 是 笔 
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viii | 前 言 





者 参考 了 实际 从 事 商业 数据 分 析 的 同行 的 工作 而 写成 的 。 在 应 用 篇 中 ， 
我 们 将 介绍 更 加 高 级 的 方法 ， 比 如 将 多 种 方法 组 合 ， 或 者 比较 几 种 方法 
中 哪 种 更 有 将 等 。 此 处 介绍 的 数据 分 析 的 应 用 案例 主要 针对 在 社交 游戏 
产业 或 IT 以 及 其 他 行业 从 事 数 据 分 析 业 务 的 人 员 ， 这 些 行业 的 数据 分 
析 人 员 很 多 时 候 都 可 以 将 案例 中 介绍 的 方法 直接 应 用 在 工作 中 。 对 于 其 
他 行业 的 分 析 人 员 ， 也 希望 他 们 能 够 参考 这 些 应 用 案例 ， 灵 活 应 用 在 自 
己 的 工作 环境 中 ， 并 提出 新 的 分 析 观 点 。 另 外 ， 本 书 的 创新 之 处 在 于 ， 
从 实际 进行 的 数据 分 析 案 例 中 挑选 了 4 个 来 介绍 ， 这 些 案例 中 所 进行 的 
数据 分 析 是 其 他 同类 数据 分 析 图 书 中 不 曾 有 过 的 。 
本 书 提供 了 各 章 中 使 用 的 数据 ， 以 及 加 工 和 分 析 数 据 时 使 用 的 了 语 
言 脚本 代码 。 读 者 可 以 一 边 阅读 各 种 案例 ， 一 边 从 数据 分 析 师 的 角度 来 
体验 实际 的 数据 分 析 流 程 。 在 讲解 数据 分 析 的 其 他 同类 图 书 中 ， 经 常 使 
用 那些 和 书 中 内 容 高 度 相符 的 数据 来 分 析 ， 但 大 多 数 读者 会 发 现在 实际 
业务 中 使 用 书 中 的 方法 却 很 困难 。 而 本 书 的 各 个 案例 提供 的 都 是 最 原始 
的 数据 ， 这 些 数据 都 是 没有 经 过 处 理 、 杂 乱 无 章 的 ， 因 此 需要 在 使 用 前 
先 处 理 一 下 。 针 对 这 些 原 始 数据 ， 如 何 灵 活 使 用 统计 分 析 工 具 来 进行 处 
理 ， 本 书 尽 可 能 地 给 出 了 详细 的 解释 。 

希望 本 书 能 够 对 数据 分 析 从 业 人 员 ( 数据 科学 家 ) 在 实际 业务 中 应 
用 数据 分 析 起 到 帮助 ， 同 时 也 和 希望 能 够 帮助 读者 深刻 理解 数据 科学 家 的 
工作 内 容 ， 并 和 他 们 一 起 更 好 地 完成 工作 。 
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数据 科学 家 的 工作 


市 场 营销 的 主要 从 业者 并 不 是 技术 人 员 ， 所 以 很 难 立 即 找到 
合适 的 从 业者 。 现 在 市 场 营销 的 工作 主要 由 3 种 职业 的 人 员 
相互 协作 来 完成 。 







































































商业 相关 的 经 验 和 知识 设计 方法 相关 的 经 验 和 知识 
( 策划 、 营 业 的 负责 人 ) ( 学 者 、 研 究 人 员 ) 
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什么 是 数据 科学 家 























什么 是 数据 

首先 我 们 需要 回答 的 问题 是 : 什么 是 数据 ? 自古 以 来 ， 人们 通过 观 
察 客观 现象 ， 并 对 观测 的 数据 进行 分 析 ， 从 而 发 现 了 各 种 各 样 的 规律 和 
法 则 。 比 如 ， 开 善 勒 根据 天 体 观测 的 数据 ， 发 现行 星 是 以 太阳 为 中 心 沿 
着 椭圆 形 轨 道 运 行 的。 在 统计 学 领域 ， 棣 英 弗 通过 对 多 种 游戏 的 观测 ， 
提出 了 中 心 极限 定理 ， 而 这 个 定理 正 是 正 态 分 布 理论 的 核心 。 也 就 是 
说 ， 如 果 我 们 把 过 去 的 某 些 事情 记录 下 来 ， 并 由 此 推导 出 一 些 可 能 的 规 
律 ， 而 这 些 规 律 又 能 够 解释 当前 某 些 事情 的 前 因 后 果 ， 那 么 基于 这 样 的 
过 程 ， 就 可 以 根据 现在 的 事情 预测 未 来 。 也 正 是 各 领域 内 这 样 的 规律 不 
断 被 发 现 、 考 证 和 研究 ， 才 推动 了 科学 的 发 展 。 而 数据 则 是 发 现 和 验证 
这 些 规律 的 关键 ， 是 十 分 宝贵 的 材料 。 


数据 在 商业 中 的 应 用 


近年 来 ， 随 着 网 络 或 POS ( Point Of Sale， 销 售 点 ) 系统 的 快速 发 
展 ， 人 的 行为 可 以 简单 地 作为 数据 存储 起 来 ， 尤 其 是 涉及 购买 行为 的 数 
据 存储 了 特别 多 。 如 果 我 们 能 够 从 这 些 存储 的 数据 中 推导 出 与 用 户 购买 
行为 相关 联 的 规则 ,那么 这 将 会 颠覆 商业 世界 里 一 直 以 来 所 遵循 的 某 类 
经 验 ， 而 在 这 种 科学 的 数据 分 析 的 指引 下 ， 将 会 打开 新 的 商业 局 面 。 

话说 回来 ， 其 实在 日 常生 活 中 我 们 也 经 常 使 用 数据 分 析 。 比 如 ， 大 
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多 数 人 都 会 定期 去 称 体重 。 称 重 的 时 候 ， 体 重 数值 本 身 并 没有 多 大 意 
义 ， 我 们 并 不 能 说 “50 kg 比较 好 ”或 者 “体重 到 了 51 kg 就 糟糕 了 ”。 
也 就 是 说 ，50 kg 、51 kg 之 类 的 体重 数值 并 没有 什么 绝对 的 意义 ， 而 仅 
仅 是 身体 重量 的 观测 数据 而 已 。 然 而 根据 这 些 观测 数据 ， 我 们 可 以 完成 
以 下 事情 。 


























女 根据 自己 的 性 别 、 年 龄 、 身 高 等 其 他 数据 ， 推 断 出 理想 的 健康 体 
重 ， 并 将 其 设 定 为 目标 值 

女 通过 长 期 跟踪 测量 体重 ， 得 到 体重 随时 间 变 化 的 观测 数据 ， 并 将 过 
去 暴 饮 暴食 等 行为 与 体重 的 变化 联系 起 来 ， 从 而 反省 自己 的 行为 

太 通 过 收集 拥有 理想 身材 的 人 的 运动 和 饮食 生活 等 方面 的 数据 ， 效 
仿 他 们 健康 的 生活 方式 





很 多 人 为 了 达到 控制 体重 的 目的 ， 都 会 根据 自己 的 体重 观测 数据 ， 
选择 采取 上 述 某 种 具体 的 行为 。 

在 商业 领域 里 也 是 一 样 。 人 们 通常 会 通过 观测 数据 来 推测 出 某 种 因 
果 关 系 ， 再 用 这 种 因果 关系 预测 未 来 ， 或 者 控制 原因 以 达到 预期 的 结 
果 。 最 近 ， 越 来 越 多 的 企业 开始 为 这 种 工作 增设 一 个 专门 的 职位 ， 招 募 
被 称 为 数据 科学 家 的 人 才 加 入 。 


为 什么 需要 数据 科学 家 


在 商业 领域 ， 从 观测 数据 中 推导 出 因果 关系 曾经 是 市 场 营销 部 的 工 
作 内 容 ， 并 由 专门 的 市 场 营销 人 员 来 承担 此 项 工作 。 市 场 营销 部 的 主要 
目的 是 “理解 用 户 的 需求 ， 迎 合用 户 的 口味 开展 商业 活动 ”。 

具体 来 说 ,市 场 营 销 部 的 主要 工作 有 分 析 各 种 销售 额 数据 ， 分 析 对 
于 广告 和 新 产品 认 知 度 以 及 正在 销售 商品 的 满意 度 问 卷 调 查 ， 分 析 售 后 
部 门 收 到 的 用 户 咨询 等 ， 并 以 “理解 用 户 的 需求 ， 迎 合用 户 的 口味 ”为 
原则 ， 开 展 企 业 的 市 场 营销 活动 。 市 场 营销 活动 在 各 个 领域 都 取得 了 一 
定 的 成 果 ， 市 场 营销 部 才 有 继续 存在 的 价值 。 

然而 ， 随 着 信息 技术 的 发 展 ， 商 业 环 境 也 在 发 生 着 变化 ， 企 业 可 以 
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保存 大 量 的 商业 日 志 。 在 商业 活动 中 ， 通 过 尽早 地 对 自身 的 细节 问题 进 
行 反复 修正 来 顺应 用 户 需求 的 服务 一 直 存 在 ， 于 是 就 有 人 提出 能 和 否 将 这 
大 量 的 日 志 应 用 于 一 直 以 来 的 市 场 营销 活动 中 。 也 就 是 说 ， 在 分 析 过 程 
中 不 仅 要 考虑 到 已 有 的 市 场 营 销 数据 ， 而 且 还 要 针对 实时 性 较 高 的 大 量 
日 志 数 据 做 出 快速 分 析 。 

为 了 满足 这 种 需求 ， 就 需要 能 够 直接 分 析 日 志 数据 的 人 ， 也 就 是 
“会 写 代 码 的 市 场 营销 人 员 ”。 这 类 会 写 代 码 的 市 场 营销 人 员 现 如 今 也 被 
称 为 数据 科学 家 。 也 就 是 说 ， 为 了 应 对 近 些 年 来 商业 环境 的 变化 ， 在 过 
去 不 兽 有 过 的 领域 里 产生 了 极 大 的 可 能 性 和 值得 关注 的 地 方 。 然 而 ， 过 
去 市 场 营 销 的 主要 从 业者 并 不 是 技术 人 员 ， 所 以 很 难 立即 找到 合适 的 从 
业者 ， 现 在 这 个 工作 主要 由 3 种 职业 的 人 员 相互 协作 来 完成 。 
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加 和 学 家 
































商业 领域 出 身 的 数据 科学 家 


在 过 去 ， 有 一 种 职业 路 线 是 商业 经 验 丰 宣 的 人 加 入 市 场 营销 活动 的 
第 一 线 。 经 营 方面 的 老手 根据 经 验 就 可 以 知道 商品 能 卖 得 出 去 的 关键 因 
素 是 什么 ; 而 在 生产 一 线 有 着 丰富 经 验 的 人 就 能 知道 要 生产 满足 用 户 需 
求 的 产品 具体 有 和 多么 困难 。 

这 些 长 期 和 商业 打交道 的 人 的 经 验 与 数据 分 析 并 不 是 相对 立 的 ， 如 
果 能 够 深刻 理解 实践 经 验 和 数据 分 析 这 两 者 的 作用 ， 并 使 其 相辅相成 ， 
将 为 商业 活动 作出 很 大 贡献 。 例 如 ， 如 果 一 个 人 既 有 数据 科学 家 的 素 
养 ， 又 有 丰富 的 商业 经 验 ， 那 么 仅 赁 一 个 销售 数据 就 能 猜测 出 这 个 数据 
背后 的 经 济 动向 。 也 就 是 说 ， 这 种 人 能 够 根据 以 往 的 经 验 ， 推 测 出 隐藏 
在 数据 背后 的 真实 背景 。 比 如 ， 在 销量 减少 时 ， 能 够 想到 原因 可 能 是 这 
个 领域 的 市 场 在 缩小 ， 或 者 竞争 对 手 公 司 变 得 强大 了 ， 或 者 其 他 公司 推 
出 了 某 种 划时代 的 产品 ， 而 本 公司 因为 技术 的 原因 没有 与 之 相 匹 敌 的 
产品 。 

现在 已 经 出 现 了 这 样 来 自 商业 领域 的 数据 科学 家 。 他 们 能 够 从 实际 
的 经 验 出 发 ， 对 数据 做 出 深刻 的 解读 。 同 时 他 们 也 擅长 找 出 关键 的 数 
据 ， 来 了 解 实际 用 户 的 需求 。 
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统计 学 出 身 的 数据 科学 家 


熟悉 统计 学 方法 的 人 也 经 常 参与 到 市 场 营销 活动 中 来 。 这 些 人 通常 
是 计量 经 济 学 、 遗 传 学 、 物 理学 、 人 工 智 能 等 学 科 的 学 者 、 学 生 或 研究 
人 人员。 他 们 平时 在 自己 的 专业 研究 中 就 十 分 擅长 使 用 统计 学 方法 。 要 想 
深刻 地 理解 各 种 统计 学 方法 ， 数 学 是 主要 的 障碍 。 而 要 想 用 好 统计 学 方 
法 ， 又 必须 深刻 地 理解 它们 。 所 以 要 想 学 好 统计 学 方法 ， 就 必须 付出 辛 
勤 的 努力 。 

在 这 方面 有 着 丰富 经 验 的 人 通常 会 从 数据 的 状态 等 条 件 出 发 ， 根 据 
自己 的 目的 和 想 要 得 到 的 结果 来 确定 数据 分 析 的 方法 ， 上 具体 如 下 所 示 。 


























@ 为 了 进行 市 场 分 析 ， 销 售 数据 应 该 如 何 分 段 才 合适 
@ 〇 由 于 使 用 交 义 列表 的 次 数 过 多 ， 应 使 用 购物 篮 分 析 
@ 空 白 的 数据 过 多 的 情况 下 ， 应 该 先 使 用 主 成 分 分 析 


即 可 以 根据 数据 的 状态 和 处 理 的 目的 选择 合适 的 统计 方法 。 另 外 ， 
在 实际 使 用 统计 方法 的 过 程 中 ， 还 能 够 增加 对 数据 分 析 局 限 性 的 了 解 ， 
积累 各 统计 方法 的 使 用 技巧 方面 的 经 验 。 

有 着 上 述 素 养 的 人 也 很 清楚 如 何 加 工 数 据 以 便 顺利 进行 数据 分 析 ， 
以 及 如 何 根 据 数据 的 状态 选取 相应 的 统计 方法 。 


工程 领域 出 身 的 数据 科学 家 


IT 工程 师 也 能 够 参与 到 市 场 营销 活动 中 来 。 数 据 科 学 家 的 一 大 半 工 
作 都 是 数据 的 前 期 处 理 ， 也 就 是 为 了 数据 分 析 而 做 的 数据 整理 工作 。 这 
一 步 通 常会 占用 大 量 的 时 间 ， 所 以 如 果 能 够 缩短 这 一 步 所 消耗 的 时 间 ， 
就 可 以 提高 数据 分 析 的 生产 率 。 为 了 做 好 数据 整理 工作 ， 需 要 能 写 出 高 
质量 的 代码 ， 而 要 想 拥 有 这 项 技能 就 需要 付出 努力 。 

在 这 方面 有 着 丰富 经 验 的 人 都 有 较 高 的 编程 能 力 和 深厚 的 计算 机 知 
识 功底 ， 他 们 能 够 判断 出 哪 种 计算 机 语言 和 系统 架构 更 利于 数据 处理 。 
比如 ， 使 用 Hive 来 处 理 较 大 的 销售 额 数 据 ; 因为 每 天 的 统计 人 处理 可 能 
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花费 几 十 分 钟 ， 所 以 事先 统计 好 用 于 分 析 的 中 间 数 据 ; 当 数 据 无 法 全 部 
读 入 内 存 时 ， 先 将 数据 切割 成 100 份 分 别处 理 ， 最 后 再 把 结果 统合 起 
来 。 像 这 样 ， 他 们 能 够 根据 数据 量 的 大 小 和 处 理 所 需 的 资源 选择 合适 的 
机 器 语言 和 系统 加 构 等 。 

这 类 有 着 工程 师 背景 的 分 析 人 员 非 常 擅 长 将 复杂 的 数据 整理 得 易于 
分 析 ， 且 具备 针对 数据 分 析 选 择 合适 的 处 理 语言 和 系统 架构 的 能 力 。 















































目前 看 来 并 不 能 说 哪 种 职业 背景 的 人 从 事 数据 分 析 ， 
| 更 有 优势 ， 需 要 从 各 自 的 职业 背景 出 发 ， 学 习 数据 ; 
分 析 所 需 的 要 素 和 技术 ， 以 达到 提升 商业 效果 的 目的 ， 











































































































商业 相关 的 经 验 和 知识 设计 方法 相关 的 经 验 和 知识 
( 策划 、 营 业 的 负责 人 ) ( 学 者 、 研 究 人 员 ) 
思 形 化 统计 学 假设 检验 
昌 的 感受 所 ”理解 
理解 用 户 的 感 归 和 909 NT 
、 购物 篮 分 析 贝 叶 斯 统计 
“ 聚 类 网 络 分 析 


“、、 机 器 学 习 ” 决策 树 分 析 


忆 数量 化 理论 ee 
忆 强化 学 习 
SOE 
本 Hive 
“Mahout p 


> ig 
“Hadoop ,~ 
> 区 


熟悉 数据 处 理 编 程 





数据 处 理 相 关 的 
编程 经 验 和 知识 
( IT 工程 师 ) 


数据 科学 家 的 必要 条 件 
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区 玫 数据 科 尘 家 的 现状 

















虽然 有 这 样 3 类 数据 科学 家 ， 但 现在 看 来 很 难说 哪 种 类 型 的 数据 科 
学 家 从 事 数 据 分 析 更 有 优势 ， 在 对 商业 的 理解 、 统 计 方法 的 理解 ， 以 及 
程序 和 系统 的 理解 方面 ， 他 们 各 自 都 有 不 足 的 地 方 。 为 了 弥补 这 些 不 
足 ， 他 们 也 都 在 不 断 地 自我 完善 和 发 展 ， 通 过 优势 互补 来 完成 市 场 营销 
业务 。 

例如 ， 和 有 着 丰富 商业 经 验 的 人 交谈 ， 可 以 确认 对 数据 的 解释 是 否 
合适 ， 探 讨 是 否 还 有 其 他 的 解释 :和 熟悉 统计 方法 的 人 交谈 ， 可 以 确认 
某 些 因果 关系 的 正确 性 ， 探 讨 是 否 还 有 效率 更 高 的 机 器 学 习 方 法 可 以 利 
用 ; 而 和 那些 工程 能 力 很 强 的 人 在 一 起 ， 则 可 以 确认 现 有 的 数据 收集 和 
加 工 方法 是 否 有 效 ， 并 探讨 如 何 处 理 大 数据 。 这 样 就 能 在 工作 中 将 这 3 
个 方面 统合 起 来 。 在 100 人 以 下 的 机 构 里 ， 这 3 种 角色 一 般 都 是 在 同一 
个 部 门 里 相互 协作 。 而 如 果 是 在 1000 人 左右 的 机 构 里 ， 则 会 分 别 成 立 3 
个 部 门 来 承担 这 3 种 工作 ， 然 后 再 在 部 门 间 开 展 协作 。 
无 论 读者 是 上 述 3 种 类 型 中 的 哪 种 ， 本 书 都 能 够 帮助 读者 掌握 相应 
的 知识 。 熟 悉 商 业 领 域 的 读者 ， 可 以 从 本 书 中 学 到 统计 学 和 实际 的 数据 
处 理 方面 的 知识 ; 熟悉 统计 方法 的 读者 ， 可 以 从 本 书 中 了 解 到 数据 分 析 
的 应 用 实例 和 数据 处 理 方面 的 知识 ; 而 从 事 IT 工程 开发 的 读者 ， 可 以 从 
本 书 中 了 解 到 数据 分 析 的 应 用 实例 和 统计 学 方面 的 知识 。 那 些 在 今后 自 
身 的 职业 规划 中 将 数据 科学 家 之 类 的 新 领域 也 纳入 考虑 范围 的 人 ， 即 使 
现在 并 不 属于 这 3 种 类 型 中 的 任何 一 种 ， 也 可 以 通过 对 本 书 中 具体 案例 
的 学 习 ， 了 解数 据 分 析 的 实际 情况 。 
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商业 数据 分 析 流 


数据 分 析 就 是 从 现状 出 发 ， 寻 找 一 条 可 以 达到 预期 的 最 短路 径 ， 
在 此 过 程 中 应 着 眼 于 找 出 主要 的 问题 ， 然 后 根据 下 面 的 架构 
来 解决 这 些 问 题 。 


























现状 和 预期 


发 现 问题 


数据 的 收集 和 加 工 


数据 分 析 


解决 对 策 
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2.1 


数据 分 析 的 5 个 流程 











商业 数 
各 种 方法 来 
分 析 的 最 终 

例如 ， 











据 分 析 的 目的 ， 就 是 要 用 统计 分 析 、 机 可 学 习 、 数 据 挖掘 的 
解决 商业 领域 里 的 各 种 问题 。 这 里 需要 注意 的 是 ， 商 业 数 据 
目的 是 解决 问题 。 

你 委托 某 家 专业 数据 分 析 公 司 来 帮 你 做 数据 分 析 ， 那 么 他 们 











会 提供 大 量 
论 。 在 把 商 
解 商业 知识 
2 
有 很 高 的 价 
叉 列 表 ( 参 
下 更 有 价值 
现 相应 的 分 
那么 ， 
架构 互 有 异 
首先 ， 








很 难 懂 的 资料 给 你 ， 而 你 最 终 得 到 的 却 是 一 些 理所当然 的 结 
业 数据 分 析 委 托 给 曾经 在 学 术 圈 活动 的 数据 分 析 师 或 者 不 了 
的 外 部 组 织 时 ， 这 种 情况 经 常 发 生 。 

使 用 高 度 复 杂 的 模型 得 到 的 高 精度 分 析 结 果实 际 上 不 一 定 具 
值 。 与 其 花费 大 量 时 间 在 复杂 的 建 模 上 ， 不 如 使 用 简单 的 交 
考 第 4 章 ) 在 短 时 间 内 得 到 分 析 结 果 ， 这 在 实际 的 商业 环境 
。 针 对 要 解决 的 问题 ， 最 重要 的 是 数据 分 析 师 能 够 设计 和 实 
析 方 法 ， 一 旦 其 中 出 了 差错 ， 数 据 分 析 就 有 可 能 失去 价值 。 
具体 来 说 应 该 如 何 开展 商业 数据 分 析 呢 ? 虽然 各 种 数据 分 析 
同 , 但 大 体 上 来 说 都 是 按照 下 面 的 结构 来 进行 的 。 

需要 对 现状 和 预期 有 一 个 很 好 的 把 握 。 其 次 ， 弄 清 现状 和 预 



















































































期 之 间 的 差 
能 有 多 个 这 
上 进行 数据 
素 的 影响 力 
完成 上 述 过 
金钱 成 本 ， 


距 ， 并 调查 导致 差距 产生 的 关键 因素 ， 即 发 现 问 题 。 因 为 可 
样 的 因素 ， 所 以 要 分 别 实施 数据 的 收集 和 加 工 ， 并 在 此 基础 
分 析 。 分 析 时 需要 对 分 析 对 象 的 结构 进行 分 解 ， 把 握 各 个 因 
的 大 小 并 相互 比较 ， 从 而 确定 导致 差距 产生 的 最 关键 因素 。 
程 之 后 ， 在 执行 解决 方案 的 过 程 中 ， 还 需要 考虑 人 力 成 本 和 
提出 解决 对 策 并 推进 。 
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总 之 ， 数 据 分 析 就 是 从 现状 出 发 ， 寻 找 一 条 可 以 达到 预期 的 最 短路 
径 ， 在 此 过 程 中 应 着 眼 于 找 出 主要 的 问题 ， 然 后 根据 下 面 的 架构 来 解决 


这 些 问 题 。 
现状 和 预期 


让 


发 现 问题 


vv 


数据 的 收集 和 加 工 


让 


数据 分 析 


让 


解决 对 策 
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2 现状 和 预期 














那么 ， 什 么 是 数据 分 析 中 的 问题 呢 ? 

例如 ， 我 们 来 考虑 “ 某 种 商品 销售 额 下 降 ” 这 种 现象 。 虽 然 销售 移 
是 下 降 了 ， 但 是 如 果 前 提 是 这 种 商品 并 不 是 该 公司 的 主打 产品 ， 并 且 最 
近 很 可 能 要 下 架 了 ， 那 么 这 种 销售 额 的 下 降 并 不 是 什么 很 大 的 问题 。 相 
反 ， 如 果 这 个 商品 的 销售 对 该 公司 的 收益 有 很 大 的 影响 ， 那 么 这 就 成 问 
题 了 。 

反之 ,我 们 再 来 考虑 “ 某 种 商品 销售 额 上 升 ” 的 现象 。 一 般 看 来 ， 
销售 额 上 升 的 情况 貌 似 并 没有 什么 问题 ， 但 是 如 果 前 提 是 “实际 上 商品 
的 销售 额 和 花 在 该 商品 上 的 广告 费 不 相称 *"， 那 么 这 里 面 就 有 问题 了 。 
由 此 可 见 ， 所 谓 的 “问题 ”其 实 是 随 着 当时 商业 环境 下 产生 的 “ 预 
期 ”而 变化 的 。 也 就 是 说 ， 有 了 “原来 的 预期 ”和 “现状 ”之 间 的 差 
距 ， 才 会 导致 问题 的 出 现 。 
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发 现 问题 














ES Wt 


在 数据 分 析 中 ， 需 要 明确 地 区 分 “现象 ”和 需要 解决 的 “问题 ”。 

在 商业 活动 中 ,“ 销 售 额 下 降 ” “顾客 流失” 等 经 常会 被 作为 “ 问 
题 ” 提 出 ， 然 而 如 前 所 述 ， 在 数据 分 析 活 动 中 ， 这 些 只 不 过 是 “现象 ” 
而 已 。 重 要 的 是 基于 这 些 “现象 "， 策 划 人 员 、 工 程 人 员 、 服 务 人 员 等 
相关 商业 负责 人 认真 地 讨论 并 发 现 需 要 解决 的 问题 (参照 下 表 )。 也 就 
是 说 ， 上 述 相关 负责 人 之 间 的 协作 对 于 有 效 的 数据 分 析 是 必 不 可 少 的 ， 
而 这 种 协作 ， 在 数据 分 析 的 过 程 中 经 常用 “发 现 问 题 ” 来 表示 。 

只 有 相关 负责 人 都 了 解 了 “现状 ”和 “预期 ”的 情况 ， 数 据 分 析 的 
准备 工作 才 算 完成 。 这 样 才 可 以 通过 数据 分 析 来 寻找 造成 “现状 ”和 
“预期 ”之 间 差 距 的 原因 。 














是 否 有 问题 
销售 额 比 例 低 维持 现状 
销售 额 比 例 高 各 销售 额 恢复 到 良好 状态 
人 降低 广告 费用 
维持 现状 





销售 额 下 降 












































销售 额 上 升 
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牢记 “预期 ， 并 认识 到 “现状 ”与 其 之 间 的 差距 


怎样 才能 “发 现 问题 "， 也 就 是 找 出 具体 的 问题 点 呢 ?“ 牢 记 没 有 问 
题 的 状态 = 预期 ”就 是 一 种 找 出 问题 所 在 的 有 效 方法 。 所 有 的 当事人 都 
应 该 去 想 着 这 种 没有 问题 的 状态 ， 这 是 非常 重要 的 。 对 数据 分 析 来 说 ， 
“销售 额 上 升 / 下 降 ” 仅 仅 是 一 种 现象 。 而 通过 思考 “预期 ”， 并 理解 
“预期 ”和 “现状 ”之 间 差 距 的 构造 ， 则 有 助 于 找 出 根本 的 问题 。 




















那么 ， 如 何 理解 “预期 ”和 “现状 ”之 间 的 差距 呢 ? 在 使 用 数据 分 
析 的 方法 中 ， 通 常 的 处 理 手法 是 首先 从 下 面 的 角度 来 观察 数据 。 


1 观察 数据 的 大 小 
2 将 数据 分 解 后 观察 
3 将 数据 比较 后 观察 





进行 数据 分 析 时 的 观察 角度 





从 3 个 角度 来 发 现 问题 


围观 察 数 据 的 大 小 

首先 ， 针 对 “预期 ”和 “现状 ”之 间 的 差距 ， 考 虑 有 哪些 因素 可 能 
会 导致 这 种 差距 ， 并 把 握 其 中 的 多 个 关键 因素 的 大 小 。 这 里 所 说 的 “大 
小 "， 指 的 是 各 因素 对 “现状 ”和 “预期 ”之 间 的 差距 的 影响 程度 。 

这 里 举 一 个 常见 的 关于 数据 分 析 的 失败 案例 。 
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“假如 我 们 对 可 能 导致 差距 的 其 中 一 个 因素 进行 了 详细 的 数据 分 析 ， 
并 讨论 出 了 填补 该 差距 的 解决 方案 以 及 具体 的 解决 措施 。 但 是 实际 上 ， 
该 因素 对 于 原本 的 现象 的 影响 程度 非常 小 ， 这 样 一 来 ， 即 使 将 解决 措施 
付 诸 实 施 ， 也 很 难 有 什么 效果 。” 

这 个 案例 失败 的 原因 在 于 “片面 地 断定 差距 的 主要 原因 ”。 事 前 
参与 讨论 的 人 数 较 少 的 情况 下 ， 往 往 通过 讨论 能 够 得 到 的 可 能 存在 的 原 
因 也 很 少 。 假 设 一 个 极端 的 情况 ， 如 果 数 据 分 析 师 只 有 一 个 人 ， 那 么 失 
败 的 概率 会 大 大 增加 。 也 就 是 说 ， 如 果 不 在 尽量 多 的 当事人 和 数据 分 析 
师 之 间 达 成 对 “预期 ”的 共识 ， 那 么 就 越 容易 出 现 缺乏 商业 价值 的 分 析 
寻 四 


所 以 首先 我 们 需要 对 “预期 ”有 一 个 好 的 理解 ， 确 认 现 在 要 进行 分 
析 的 关键 因素 对 于 整体 有 多 大 的 影响 。 根 据 确认 的 结果 ， 如 果 该 因素 的 
影响 较 小 ,那么 就 可 以 判断 出 该 处 并 不 是 本 质 性 的 问题 ， 需 要 从 其 他 的 
角度 来 寻找 关键 的 因素 。 












































二 































































































影响 大 影响 小 
关键 
因素 B 
关键 因素 A 的 
关键 
对 素 DD 











先 估计 各 因素 的 影响 程度 


国 将 数据 分 解 后 观察 

“将 数据 分 解 后 观察 ” 指 的 是 从 多 种 角度 来 观察 所 发 生 的 现象 ， 分 
解 出 构成 这 种 现象 的 因素 ， 并 找 出 导致 这 种 现象 出 现 的 原因 。 在 分 解 的 
时 候 ， 必 须要 遵循 MECE 的 原则 。 

MECE 是 下 面 4 个 单词 的 首 字 母 缩写 。 
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@ Mutually : 相互 性 

e@ Exclusive : 排 重 性 
e@ Collectively : 完整 性 
e@ Exhaustive : 全 面 性 


分 解 方法 有 很 多 种 ， 但 是 对 于 数据 分 析 来 说 比较 有 效 的 是 因数 分 解 


分 析 。 因 数 分 解 听 起 来 好 像 比较 复杂 ， 但 实际 上 就 是 四 则 运算 的 分 解 。 
比如 说 ， 对 销售 额 的 分 解 就 是 下 面 这 样 。 




















销售 额 = 人 均 销 售 额 x 购买 人 数 


所 以 ， 应 该 按照 下 述 方式 来 分 解 。 


人 均 销售 额 











哪 种 关键 因素 更 
容易 调控 ? 
Ed 














购买 人 数 


个 
要 提高 销售 额 ， 


销售 额 = 人 均 销 售 额 x 购买 人 数 


按照 上 述 的 MECE 方式 对 现象 进行 分 解 并 得 到 多 个 因素 ， 通 过 观察 
它们 的 时 间 序 列 变化 图 ， 就 可 以 发 现在 什么 时 候 哪个 因素 的 值 下 降 了 。 
这 种 情况 下 重要 的 是 区 分 是 “能 被 调控 的 因素 "， 还 是 “不 能 被 调控 或 
惟 以 调控 的 因素 "。 而 在 进行 MECE 分 解 时 ， 重 要 的 是 通过 分 解 得 到 可 
调控 的 因素 。 

例如 ， 如 果 对 某 个 章鱼 烧 和 餐馆 的 销售 额 进行 分 解 后 得 到 了 “人 均 消 
费 额 ”这 个 因素 ， 那 么 也 就 能 够 得 到 这 个 因素 的 时 间 序 列 变化 ， 据 此 就 
能 够 发 现 每 次 都 要 吃 上 两 三 份 食物 的 大 食量 客人 变 多 了 或 者 变 少 了 这 种 
象 。 但 是 ， 如 果 该 数值 下 降 了 ( 即 大 食量 的 客人 变 少 了 )， 那 么 这 种 
况 下 要 想 通 过 “使 进 店 的 客人 每 人 都 吃 上 两 三 份 食物 ”来 保证 销售 额 














> 

















当 





由 


情 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


2.3 ”发 现 问题 | 17 


很 困难 的 。 也 就 是 说 ， 虽然 观察 人 均 消 费 额 这 一 因素 的 时 间 序 列 变化 
有 意义 的 ， 但 是 这 个 因素 是 我 们 无 法 调控 的 。 如 果 分 解 得 到 的 都 是 这 
样 的 因素 ， 那 么 由 此 而 进行 的 数据 分 析 很 难 有 什么 效果 。 

相反 ， 如 果 在 经 过 MECE 分 解 后 得 到 的 各 个 因素 中 包含 能 够 人 为 调 
控 的 因素 ， 并 且 该 因素 中 存在 问题 ， 那 么 即使 该 因素 的 数值 在 不 断 地 上 
下 波动 ,我 们 也 很 容易 找 出 问题 的 关键 所 在 ， 并 能 够 通过 有 效 的 数据 分 
析 找 到 快速 解决 的 方案 。 例 如 ， 针 对 某 个 章鱼 烧 餐 馆 ， 当 我 们 发 现 该 餐 
馆 的 广告 费 和 吸引 到 的 顾客 人 数 之 间 的 因果 关系 时 ， 我 们 就 会 对 广告 投 
放 充满 信心 ， 此 时 “新 顾客 人 数 ” 就 会 是 “能 够 调控 的 因素 "。 当 新 顾 
客人 数 下 降 时 ， 我 们 就 可 以 知道 该 投放 多 少 广告 以 使 得 新 顾客 的 人 数 回 
升 ， 并 能 够 很 快 地 具体 执行 。 


图 将 数据 比较 后 观察 

“将 数据 比较 后 观察 ” 指 的 是 将 发 生 问题 时 的 数据 和 没 发 生 问题 时 
的 数据 相互 比较 ， 并 找 出 问题 出 现 的 原因 。 

下 图 就 是 按 MECE 分 解 得 到 的 关于 销售 额 的 各 个 因素 。 最 好 时 期 的 
状态 ， 也 就 是 “预期 ”， 如 左 图 所 示 ， 而 “现状 ”如 右 图 所 示 。 例 如 ， 
当 销 售 额 的 预期 和 现状 之 间 出 现 差距 时 ， 通 过 观察 这 张 图 就 可 以 看 出 ， 
因为 “购买 人 数 ” 下 降 ， 所 以 销售 额 才 会 下 降 。 像 这 样 ， 把 以 MECE 的 
方式 分 解 得 到 的 各 个 因素 进行 比较 ， 作 为 数据 分 析 的 一 个 切入 口 ， 是 必 
不 可 少 的 一 步 。 


是 
是 













































































六 购买 人 数 1 万 人 | 





购买 人 数 2 万 人 


上 个 月 (预期 ) 这 个 月 ( 现状 ) 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


18 第 2 章 商业 数据 分 析 流程 


进行 这 种 数据 比较 分 析 的 目的 是 达到 茶 种 程度 的 类 型 化 处 理 。 首 
先 ， 在 使 用 时 间 序 列 进行 比较 的 情况 下 ， 可 以 把 过 去 的 数据 和 现在 的 情 
况 比较 ， 如 下 所 示 。 








@ 昨天 和 今天 的 比较 
@ 上 周 和 这 周 的 比较 
@ 同一 个 商业 活动 在 过 去 和 现在 的 情况 的 比较 





另外 ， 有 时 还 需要 和 其 他 类 似 商品 或 者 服务 的 数据 相 比较 ， 例 如 : 


@ 和 竞争 对 手 公 司 的 销售 数据 相 比较 
@ 公司 内 部 的 服务 之 间 的 利益 比较 





而 分 析 用 户 属性 也 是 经 常 使 用 的 方法 ， 例 如 : 





@20 多 岁 和 50 多 岁 用 户 的 购买 欲 的 差异 ( 年 龄 段 差 异 ) 
@ 男性 和 女性 的 购买 率 的 差异 ( 性 别 差异 ) 
@ 关东 和 关 西 地 区 用 户 喜 好 的 颜色 和 形状 的 差异 ( 地 域 差异 ) 





像 这样 ， 可 以 考虑 在 收集 到 的 用 户 属性 的 各 个 类 别 之 间 进 行 比 较 


(参照 第 4 章 )。 
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2 有 本 数据 的 收集 和 加 工 
































数据 收集 


在 明确 了 需要 解决 的 问题 之 后 ， 要 想 验证 这 些 问题 ， 就 需要 收集 必 
要 的 数据 。 在 数据 收集 时 ， 需 要 考虑 以 下 内 容 。 














@ 为 了 验证 问题 ， 什 么 样 的 数据 是 必要 的 

@ 这 些 必要 的 数据 保存 成 分 析 师 可 以 马上 使 用 的 形式 了 吗 

@ 这 些 必要 的 数据 在 分 析 师 提出 申请 后 能 使 用 吗 

@ 当 某 些 必要 的 数据 没有 被 保存 时 ， 还 能 重新 获得 这 些 数据 吗 

@ 当 某 些 必要 的 数据 没有 被 保存 ， 并 且 重 新 获得 这 些 数据 的 代价 太 
大 时 ， 有 没有 其 他 可 蔡 代 的 数据 


在 上 述 各 项 内 容 中 ， 除 第 一 条 之 外 ， 越 排 在 前 面 的 条 目 获 取 数据 的 
代价 就 越 小 。 在 充分 考虑 效率 的 情况 下 ， 分 析 师 首先 应 尽 可 能 地 使 用 手 
头 上 已 有 的 数据 、 马 上 可 以 利用 的 数据 或 者 申请 后 就 能 使 用 的 数据 来 完 
成 分 析 。 

如 果 觉 得 在 进行 数据 分 析 后 新 获取 某 些 数据 会 有 很 好 的 商业 效果 ， 
那么 也 可 以 考虑 去 新 获取 这 些 数据 。 然 而 ， 在 实际 的 数据 分 析 工 作 中 ， 
能 够 事先 预见 数据 重要 性 的 情况 并 不 多 见 。 即 使 是 重新 获取 了 这 些 数 
据 ， 也 会 导致 数据 收集 所 花费 的 成 本 大 大 增加 。 男 外 ， 由 于 需要 重新 设 
署 数 据 收集 的 起 始 时 间 ， 这 就 使 得 无 法 和 过 去 的 现象 进行 对 比 。 并 且 在 
积累 充足 的 数据 之 前 ， 数 据 分 析 无 法 开始 等 问题 都 加 大 了 工作 的 难度 。 
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必要 数据 已 经 保存 下 来 的 情况 下 ， 一 般 有 3 种 存储 的 方式 : 文件 、 
数据 库 、Hadoop ( HDFS )。 


国 从 文件 中 读 取 数 据 

当 数 据 以 文件 的 形式 保存 时 ， 多 以 CSV ( 以 逗号 作为 分 隔 符 ) 或 者 
TSV( 以 制 表 符 作为 分 隔 符 ) 的 格式 保存 。 数 据 分 析 时 ， 就 从 这 些 文件 
中 对 必要 的 数据 进行 抽取 和 组 合 。 


GSV 交 件 ESV 交 人 
2014-10-01, 100, ... 2014-10-01 100 ... 


2014=10=01, 121,... 2014=10=01 121 ... 





国 从 数据 库 中 读 取 数据 

除了 用 文件 来 保存 数据 ， 涉 及 商业 活动 的 数据 通常 使 用 数据 库 来 存 
储 。 数 据 库 有 很 多 种 ， 但 多 数 企 业 一 般 使 用 诸如 MySQL 等 的 RDBMS 
系统 来 保存 数据 。 数 据 分 析 师 可 以 通过 在 数据 库 中 执行 命令 (参照 后 文 
的 SQL 命令 ) 的 方式 来 获取 分 析 时 所 需 的 数据 。 








> 
数据 库 中 数据 的 保存 形式 
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| SELECT 

1 og_date, i 二 EE 
sri 希望 获得 的 数据 的 属性 
sum(payment) 

1 FROM EW 沪 Bae i 

| 希望 获得 的 数据 的 所 在 位 置 
payments 

! WHERE 

] 讨 滤 条 

| iog oate=2014.1001 时 过 滤 条 件 

;1 GROUP BY 

; 组 统计 条 
og_date, user_id 分 组 统计 条 件 





使 用 SQL 命令 从 数据 库 中 抽取 所 需 数据 的 实例 


国 从 Hadoop ( HDFS ) 中 读 取 数据 

过 去 ， 商 业 数 据 的 收集 代价 很 大 。 然 而 近 些 年 来 ， 伴 随 着 信息 和 通 
信 技 术 的 发 展 ， 企 业 可 以 轻松 地 获取 数据 ， 因 此 数据 就 被 大 量 地 保存 了 
起 来 。 

在 这 样 的 背景 下 ， 过 去 所 使 用 的 数据 库容 量 有 限 ， 无 法 满足 大 量 数 
据 的 存储 。 为 了 解决 这 一 问题 ， 人 们 开始 考虑 使 用 中 间 件 。 数 据 的 使 用 
者 看 似 只 是 在 和 一 个 数据 库 打 交道 ， 而 背后 实际 上 是 一 个 能 够 连接 多 个 
数据 库 的 系统 。 

Hadoop 就 是 用 来 保存 所 谓 的 大 数据 的 。 企 业 为 了 手动 处 理 数 
据 ， 经 常 使 用 Hadoop 这 个 中 间 件 。 在 这 个 中 间 件 上 保存 的 数据 是 通过 
HDFS ( Hadoop 分 布 式 文件 系统 ) 架构 来 管理 的 。 数 据 分 析 师 使 用 
Hadoop 命令 或 Hive 之 类 的 工具 ， 从 这 个 中 间 件 中 获取 分 析 必 需 的 


目 


Hadoop ( HDFS 


TH 二 IT i eu a 二 Eu 和 TH 
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在 收集 好 分 析 所 必需 的 数据 后 ， 下 一 步 就 是 数据 加 工 了 。 在 一 般 的 
数据 分 析 教 科 书 中 ， 为 了 方便 理解 数据 分 析 的 方法 ， 使 用 的 都 是 适用 于 
该 分 析 方 法 的 数据 。 然 而 ， 在 实际 的 数据 分 析 过 程 中 ， 需 要 根据 使 用 的 
分 析 方法 ， 自 己 动手 来 加 工 这 些 数据 。 

根据 数据 分 析 的 目的 、 数 据 的 保存 状态 、 数 据 的 形状 等 的 不 同 ， 数 
据 加 工 的 方式 也 有 所 不 同 ， 因 此 需要 具体 情况 具体 分 析 。 在 实际 进行 数 
据 分 析 时 ， 能 否 较 好 地 完成 数据 加 工 是 一 个 关键 点 。 


围 数据 的 整合 

大 多 数 的 分 析 方 法 都 要 求 在 要 分 析 的 一 块 数 据 中 包含 所 有 希望 分 析 
的 信息 。 也 就 是 说 ， 要 将 多 块 需要 分 析 的 数据 整合 成 一 块 ,但 是 这 些 数 
据 通常 都 分 别 保存 在 各 自 的 文件 或 表格 当中 。 因 此 ， 为 了 完成 数据 的 整 
合 ， 如 果 数 据 存储 在 数据 库 中 ， 就 使 用 SQL 命令 ; 如 果 存 储 在 文件 中 ， 
就 使 用 Excel 或 R 等 。 







































































国生 成 用 于 判定 的 变量 

例如 ， 我 们 将 某 天 来 访问 的 用 户 的 数据 和 消费 数据 加 以 整合 ， 那 么 
那些 没有 消费 的 用 户 由 于 在 消费 数据 中 没有 记录 ， 将 不 会 被 整合 到 最 终 
的 数据 当中 。 在 这 种 情况 下 ， 可 以 新 创造 一 个 变量 ， 该 变量 的 值 只 有 
“已 消费 (1》/“ 未 消费 (0) 两 个 标志 位 。 有 了 这 样 的 标志 位 ， 不 仪 可 
以 通过 “已 消费 的 标志 位 数 / 总 用 户 数 ”得 到 消费 率 ， 还 可 以 将 消费 标 
志 位 作为 因 变 量 建立 相应 的 模型 等 。 


国生 成 离散 变量 

例如 ， 基 于 某 天 每 个 用 户 的 消费 数据 ， 我 们 可 以 将 用 户 分 为 消费 金 
额 较 大 的 用 户 、 消 费 金 额 一 般 的 用 户 、 消 费 金 额 较 小 的 用 户 和 完全 不 消 
费 的 用 户 。 像 这 样 根据 数据 对 用 户 进行 分 类 分 析 的 场景 很 常见 。 在 商业 
领域 ,为 了 方便 在 数据 分 析 后 采取 相应 的 解决 对 策 ， 需 要 像 这 样 将 连续 
数值 离散 化 。 在 这 种 情况 下 ， 我 们 以 某 个 金额 为 基准 ， 像 下 面 这 样 生成 
离散 化 的 定 类 变量 。 
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e@ 消费 金额 较 大 的 用 户 ( 1 ) 
e@ 消费 金额 一 般 的 用 户 ( 2 ) 
® 消费 金额 较 小 的 用 户 ( 3 ) 
e@ 完全 不 消费 的 用 户 ( 4 ) 


通过 生成 这 样 的 变量 ， 就 可 以 进行 各 种 各 样 的 分 析 。 例 如 ， 通 过 
“ 某 一 天 的 消费 总 金额 / 消费 人 的 定 类 变量 ”"， 就 可 以 得 到 按照 消费 金额 
大 小 分 成 的 4 类 用 户 中 每 类 用 户 的 平均 消费 金额 ， 也 可 以 基于 消费 人 的 
定 类 变量 进行 交叉 列表 统计 ， 甚 至 可 以 进行 数据 建 模 等 工作 。 












































图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


24 | 第 2 章 商业 数据 分 析 流 程 


2 数据 分 析 

















到 目前 为 止 ， 我 们 介绍 了 “现状 和 预期 的 整理 ”“ 问 题 的 定义 和 发 
现 ”“ 具 体 的 数据 收集 和 加 工 ” 这 些 内 容 。 如 果 依 次 很 好 地 完成 了 上 述 
工作 ， 下 一 步 就 是 数据 分 析 了 。 在 商业 数据 分 析 中 ， 根 据 问题 种 类 的 不 
同 ， 大 致 分 为 “决策 支持 ”和 “自动 化 . 最 优化 ”两 大 类 。 

首先 ,“ 决 策 支 持 ” 的 目的 是 帮助 用 户 做 出 决策 并 执行 。 因此， 人 
们 能 够 理解 并 做 出 恰当 的 判断 是 最 重要 的 。 在 进行 以 “决策 支持 ”为 主 
的 数据 分 析 时 ， 相 较 于 那些 高 级 复杂 的 分 析 模 型 ， 简 单 日 易于 理解 的 分 
析 模 型 更 有 效果 ， 所 以 这 种 情况 下 经 常 使 用 简单 求 和 或 交叉 列表 。 

另 一 方面 ,“ 自 动 化 最 优化 ”的 目的 是 帮助 用 户 构建 让 计算 机 热 















































行 问题 解决 方案 的 算法 。 因 此 ， 相 较 于 易于 理解 性 ， 更 重视 算法 的 计算 
量 和 精度 。 















































决策 支持 自动 化 .最 优化 

目的 支持 人 们 的 行为 决策 支持 计算 机 的 行为 
目标 降低 沟通 成 本 提高 预 估 精 度 ， 降 低 计 算 量 

常用 的 方法 简单 求 和 、 交 叉 列 表 机 器 学 习 、 构 建 算法 




















有 助 于 决策 支持 的 统计 分 析 


对 决策 支持 有 效 的 数据 分 析 ， 基 本 上 都 是 简单 求 和 或 者 交叉 列表 之 
类 的 数据 分 析 。 这 类 分 析 简单 且 易 于 理解 ， 分 析 师 和 商业 负责 人 沟通 起 
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来 的 成 本 较 低 。 除 此 之 外 ， 有 时 还 会 基于 统计 分 析 建 立 预测 模型 。 预 测 
模型 能 够 明确 “什么 样 的 因素 会 对 结果 产生 什么 样 的 影响 ”这 样 的 因果 
关系 ， 因 此 有 助 于 决策 支持 。 例 如 ， 通 过 建立 一 个 用 广告 因素 来 解释 销 
售 额 结果 的 模型 ， 就 能 够 得 到 一 个 预测 模型 ， 预 测 投放 多 大 金额 的 广告 
可 以 带 来 多 大 程度 的 销售 额 增 长 。 顺 便 解 释 一 下 ， 在 统计 分 析 中 ， 上 例 
中 的 销售 额 ， 即 被 预测 的 数值 称 为 “ 因 变 量 "， 而 广告 费 等 用 于 解释 预 
测 的 因素 称 为 “ 自 变量 ”。 

另外 ， 在 事前 调研 阶段 ， 如 果 引 发 问题 现象 的 因素 很 复杂 ， 则 需要 
建立 一 个 由 多 个 因素 组 成 的 预测 模型 。 借 助 这 个 模型 ， 我 们 可 以 观察 一 
个 因素 的 变化 会 给 整体 带 来 什么 样 的 变化 。 此 时 可 以 使 用 各 种 多 重 回归 
分 析 法 (第 6 章 ) 或 者 协 方差 结构 分 析 法 。 回 归 分 析 类 的 数据 分 析 方 法 
相对 来 说 沟通 成 本 较 低 ， 且 易于 传达 。 协 方差 结构 分 析 类 的 复杂 分 析 需 
要 数据 分 析 师 对 整个 方法 的 构造 非常 了 解 ， 仅 使 用 简单 求 和 或 者 交叉 列 
表 的 方式 来 传达 主要 的 部 分 。 




















































































车 速 与 停车 距离 之 间 的 关系 
已 
归 2 
I 区 
人 2 2 i 
名 ES 里 已 
人 人 下 大肠 癌 | 
用 制品 2 西餐 倾向 中 
人 漂 关 全 o8 直肠 癌 | 必 
多 重 回 归 分 析 的 示意 图 协 方 差 结 构 分 析 的 示意 图 





有 助 于 自动 化 … 最 优化 的 机 器 学 习 


“有 助 于 决策 支持 的 统计 分 析 ” 所 关注 的 重点 是 “什么 能 有 效 地 提 
升 销售 额 ” 等 问题 ， 而 对 此 进行 详细 的 分 析 则 是 “自动 化 * 最 优化 ”的 
目的 。 

例如 , “这 个 数值 大 于 10 的 话 ， 就 会 大 大 提升 商品 被 购买 的 概率 ” 
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这 类 论断 大 都 需要 从 最 优化 的 逻辑 出 发 来 验证 。 更 进一步 ， 我 们 可 以 推 
测 出 “ 哪 种 类 型 的 消费 者 更 容易 购买 哪 种 商品 ”这 种 个 人 购买 行为 。 举 
个 著名 的 例子 ， 电 商 亚 马 撑 就 提供 了 “购买 此 商品 的 顾客 也 同时 购买 ” 
的 推荐 功能 。 

此 时 机 器 学 习作 为 一 种 强 有 力 的 数据 分 析 方法 ， 经 常 被 用 来 处 理 
过 去 积攒 下 来 的 日 志 数 据 。 这 些 数 据 的 量 往往 很 大 ， 人 们 很 难 用 肉眼 
去 发 现 其 中 的 模式 或 者 规律 。 然 而 ， 机 器 学 习 却 能 够 从 数据 中 学 习 出 
其 本 身 包含 的 模式 或 者 规律 ， 并 以 此 来 建立 模型 。 基 于 这 个 模型 ， 就 
能 够 从 用 户 购 买 行为 的 规律 出 发 ， 自 动 地 向 每 个 用 户 提 供 他 们 各 自 需 
要 的 商品 。 






















































































i No 用 户 行为 数据 库 @ 用 户 行为 
inpu 
1 input 
output 
i Wo @ 利用 用 户 行为 数据 
中 取得 用 户 行为 数据 
推荐 模型 的 示意 图 
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解决 对 策 


数据 分 析 的 最 后 一 步 就 是 基于 分 析 的 结果 来 判断 是 否 需要 采取 相应 
的 解决 对 策 。 

这 里 的 解决 对 策 有 两 个 意思 :“ 人 们 做 出 决策 并 着 手 开始 做 某 事 或 者 
停止 做 某 事 ”和 “构建 用 于 执行 解决 对 策 的 算法 并 在 计算 机 上 运行 ”。 
这 两 个 意思 分 别 和 之 前 介绍 数据 分 析 时 提 到 的 “决策 支持 ”和 “自动 
化 :最 优化 ”相对 应 。 

这 二 者 在 执行 之 前 的 沟通 成 本 上 是 有 差异 的 。 沟 通 成 本 中 大 部 分 是 
说 服 他 人 的 成 本 ， 要 说 服 的 有 上 司 、 策 划 人 员 、 开 发 人 员 或 者 运 维 人 
员 。 在 多 数 的 组 织 机 构 中 ,“ 决 策 文 持 ” 的 说 服 成 本 主要 花 在 上 司 或 者 
策划 人 员 上 ， 而 “自动 化 ， 最 优化 ”的 说 服 成 本 则 大 都 花 在 开发 人 员 或 
运 维 人 员 上 。 





























选择 、 执 行 选择 、 执 行 


策划 负责 人 
( 8 系统 运 维 人 


数据 分 析 的 成 果 沟通 数据 分 析 的 成 果 沟 通 


数据 分 析 负责 人 | 数据 分 析 负责 人 


决策 支持 的 情况 下 自动 化 * 最 优化 的 情况 下 





党 中 











图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


28 | 第 2 章 商业 数据 分 析 流 程 


因此 ,无论 是 哪 种 解决 对 策 ， 都 需要 在 对 其 改善 或 实施 的 费用 和 效 
果 进 行 评估 的 基础 上 决定 是 否 执行 。 经 常 遇 到 的 情况 是 ， 我 们 知道 需要 
改善 的 因素 ， 也 估算 了 所 需 的 开发 成 本 ,但 是 却 无 法 判断 具体 执行 该 解 
决 对 策 后 会 有 什么 样 的 效果 。 也 就 是 说 ， 在 完成 了 数据 分 析 后 ， 经 常 需 
要 面 对 如 何 将 预测 的 效果 具体 化 、 执 行 风险 最 小 化 的 问题 。 

在 这 种 情况 下 ， 数 据 分 析 师 就 能 够 给 我 们 提供 帮助 。 例 如 ， 使 用 分 
析 时 建立 的 预测 模型 来 进行 模拟 仿真 。 如 果 过 去 的 数据 在 未 来 也 能 够 复 
现 ， 那 么 就 提示 所 预 佑 的 具体 效果 有 多 大 。 在 采取 解决 对 策 时 ， 未 来 将 
要 面临 的 情况 不 可 能 和 过 去 完全 一 致 ， 所 以 一 并 提示 会 出 现 多 大 的 偏差 
也 很 重要 。 



























































60 分 钟 的 情况 下 





30 分 钟 的 情况 下 





20 分 钟 的 情况 下 


由 15 分 钟 的 情况 下 











模拟 仿真 的 示意 图 ( 停留 时 间 和 遇 上 大 甩卖 次 数 的 概率 ) 





Ml 
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小 结 

















到 目前 为 止 ， 商 业 数 据 分 析 的 框架 我 们 就 介绍 完了 。 但 读者 不 一 定 
要 完全 遵循 这 个 步骤 ， 也 不 一 定 必须 按照 我 们 介绍 的 顺序 来 做 。 然 而 ， 
有 一 定 经 验 的 数据 分 析 师 大 都 会 有 意 无 意 地 灵活 运用 这 个 框架 。 

例如 ， 在 “发 现 问题 ”的 讨论 中 ， 有 经 验 的 数据 分 析 师 总 能 意识 到 
“这 个 数据 有 吗 ?”“ 这 里 的 数据 能 收集 到 吗 ?”“ 如 果 收 集 不 到 ， 那 么 能 
j 这 个 数据 奉 代 吗 ?” 这 类 “数据 收集 ”的 问题 ， 以 及 “因为 要 用 这 种 
方法 来 分 析 这 个 数据 ， 所 以 有 必要 收集 之 前 的 这 个 数据 ”这 类 “数据 分 
析 ” 的 问题 。 

在 讨论 中 应 充分 探讨 这 些 问题 ， 并 确认 是 否 达 成 了 共识 。 男 外 ， 即 
使 在 讨论 过 后 ， 也 可 以 通过 别 的 方式 来 探讨 如 何 收集 尚未 保存 的 数据 。 

这 些 可 以 说 都 是 随 着 数据 分 析 师 个 人 经 验 的 增加 而 积累 的 技巧 。 实 
际 上 ， 关 于 “现状 和 预期 ”的 概念 ， 与 其 让 数据 分 析 师 来 考虑 ， 不 如 让 
策划 、 开 发 或 者 运 维 的 相关 人 员 ， 也 就 是 数据 分 析 的 委托 人 来 考虑 ， 这 
样 也 有 助 于 数据 分 析 的 顺利 进行 。 总 之 ， 委 托 人 和 分 析 师 需要 对 数据 分 
析 的 预期 达成 共识 ， 认 真 进行 数据 分 析 ， 以 得 出 切实 可 行 的 方案 ， 这 是 
商业 数据 分 析 里 最 为 重要 的 部 分 。 做 好 这 部 分 工作 就 是 轻松 提升 数据 分 
析 效 果 的 方法 论 。 
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R 语 言 入 门 





从 第 3 章 开 始 ， 读 考 将 体验 到 数据 分 析 的 整套 流程 ， 所 以 现在 
需要 先 学 习 使 用 R 语言 。R 语言 是 可 以 免费 使 用 的 。 下 面 我 们 为 RR 
语言 的 初学 者 介绍 3 个 基本 的 操作 。 




















@ R 语言 的 安装 
@ 如何 确认 保存 分 析 数 据 的 地 方 
@ R 语言 的 扩展 功能 ( 程序 包 ) 的 使 用 方法 


※ 另外 ， 由 于 本 书 并 不 是 及 语言 的 解说 书 ， 因 此 各 章 的 代码 解说 
中 并 不 会 提供 关于 及 语言 细节 的 详细 说 明 。 有 关 代 码 的 解释 仅 
限于 数据 分 析 和 数据 解释 所 必要 的 最 小 范围 内 。 读 者 在 阅读 本 书 
时 也 不 要 太 拘 泥 于 细节 。 





R 语 言 的 安装 
关于 RR 语言 的 安装 ， 网 上 有 很 多 资料 介绍 。 读 者 可 以 根据 自己 
使 用 的 开发 环境 ， 选 择 安装 Windows 版 、Mac 版 或 者 Unix 版 。 
启动 R 语言 程序 后 会 显示 下 面 的 界面 ( 下面 会 使 用 Mac 版 的 及 
语言 (ver 3.0.2 ) 来 介绍 ，Windows 版 等 其 他 版 本 也 都 一 样 )。 从 第 
3 章 开 始 ， 在 图 中 的 “R Console” 中 输入 每 章 末 的 代码 ， 就 能 够 体 
验 各 章 案例 学 习 中 的 数据 分 析 。 




































































图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 





过 输入 下 I 














展 RGui(64-bi 于 半生 0 py Pp 本 
File Edit View Misc | Packages| Windows Help 

回国 到 忆 [ 多 [S| 加 图 

|- ; 
忠 R Console FeaES 





R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch" 


Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 


Type 'license()' or 'licence()' for distribution details. 


R is a collaborative project with many contributors. 











TYPe 'contributors()' for more information and 

'citation()' on how to cite R or R packages in publications. 

Type 'demo()' for some demos, 'help()' for on-line help, or 
"help.start()' for an HIML browser interface to help. 

Type 'q()' to quit R. 

《| < 一 这 里 开始 输入 
Windows 版 的 界面 

图 R Console 


@ 
全 必 册 和 国 @ | 已 


R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch” 

Copyright (C) 2016 The R Foundation for Statistical Computing 

Platform: x86_64-apple-darwin13.4.0 (64-bit) 

R is free software and comes with ABSOLUTELY NO WARRANTY . 

You are welcome to redistribute it under certain conditions. 

Type 'license()' or ‘licence()' for distribution details. 
Natural language support but running in an English locale 

R is a collaborative project with many contributors. 

Type 'contributors()' for more information and 

'citation()' on how to cite R or R packages in publications. 

Type 'demo()' for some demos, 'help()' for on-line help, or 

"help.startO)" for an HTML browser interface to help. 

Type 'qO" to quit R. 

[R.app GUI 1.68 (7288) x86_64-apple-darwin13.4.0] 


[History restored from /Users/sumomoharuji/ .Rapp.history] 


<— 从 这 里 开始 输入 和 
Mac 版 的 界面 


如 何 确认 保存 分 析 数 据 的 地 方 
R 语言 里 ， 需 要 将 要 分 析 的 数据 保存 在 某 个 地 方 。 读 者 可 以 通 
图 中 的 命令 来 确定 数据 该 保存 在 何 处 。 
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>getwd () 











在 下 面 的 例子 中 ， 目 录 /Users/sumomoharuji/ 既是 数据 的 保 
存 位 置 ， 也 是 R 语言 的 当前 工作 目录 。 


Oe@e R Console 


二 La] 











R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut” 

Copyright (C) 2015 The R Foundation for Statistical Computing 

Platform: x86_64-apple-darwin13.4.0 (64-bit) 

R is free software and comes with ABSOLUTELY NO WARRANTY. 

You are welcome to redistribute it under certain conditions. 

Type 'license()' or 'licence()' for distribution details. 
Natural language support but running in an English locale 

R is a collaborative project with many contributors. 

Type 'contributors()' for more information and 

‘citation()' on how to cite R or R packages in publications. 

Type 'demo()' for some demos, ‘help()' for on-line help, or 

‘help.startO' for an HTML browser interface to help. 

Type 'qO" to quit R. 

[R.app GUI 1.66 (6956) x86_64-apple-darwin13.4.0] 

> getwd() 本 一 一 一 一 一 一 | > getwd() 


外 "/Users/sumomoharuji" [1] “Users/sumomoharuji" 
> 
> 


R 语 言 的 扩展 功能 的 使 用 方法 

R 语言 包含 语言 本 身 和 其 他 的 程序 包 。 把 这 些 程 序 包 下 载 到 自 
己 的 计算 机 中 并 进行 设置 ， 就 可 以 扩展 RR 语言 本 身 的 功能 。 这 些 程 
序 包 是 由 全 世界 的 了 语言 用 户 开发 出 来 的 数据 处 理工 具 ， 面 向 所 有 
人 公开 。 通 过 运行 命令 install .packages (XXX) 就 能 够 将 XXX 这 
个 工具 下 载 到 自己 的 计算 机 里 ， 且 不 需要 指定 下 载 保存 路 径 等 具体 
信息 ， 就 可 以 使 用 这 个 工具 。 每 台电 脑 只 需要 下 载 一 次 ， 之 后 就 可 
以 一 直 使 用 了 。 例如， 安装 工具 ggplot2 的 操作 如 下 所 示 。 

















































































































图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


2 县 35 








x Fa| Ca 一 
国 必 而 和 于 0 一 | beeoe Canis 
rem 
2 a 人 0-Cloud [https] 
0-Cloud 


R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut' Ageria [https] 


Copyright (C) 2015 The R Foundation for Statistical Ct 
Platform: x86_64-apple-darwin13.4.0 (64-bit) Algeria 

Argentina (La Plata) 
R is free software and comes with ABSOLUTELY NO WARRANTY. Australia (Canberra) [https] 
You are welcome to redistribute it under certain conditions. Australia (Canberra) 
Type "license()' or ‘licenceO' for distribution details. Australia (Melbourne) [https] 


Australia (Melbourne) 


Natural language support but running in an English locale 
ep y 时 Australia (Perth) [https] 


R ts a collaborative project with many contributors. Austria [https] 
Type "contributorsC)，for more information and Austria 
'citation()”on how to cite R or R packages in publications. Belgium (Antwerp) 


Type ‘demo()' for some demos, ‘help()' for on-line help, or Belgium (Ghent) [https] 
‘help. start()' for an HTML browser interface to help. Belgium (Ghent) 
Type 'qO" to quit R. Brazil (BA) 












Brazil (PR) 
[R.app GUI 1.66 (6956) x86_64-d> installpackages("ggplot2") Brazil (RJ) [https] 
一 为 了 在 这 个 对 话 中 使 用 ， 请 选择 CRAN 中 的 镜像 网 站 -一 Brazil(RJ) 


[History restored from /Users/ | 


> install.packages("ggplot2") 
--- Please select a CRAN mirror for use in this session --- Cancel ems 


ee 


输入 install .packages 命令 后 会 出 现 CRAN mirror 的 选择 画 
选择 一 个 中 国 的 镜像 站 点 ,然后 点 击 “ 确 定 ”， 下 载 就 开始 了 。 





> library (XXX) 





然后 ， 通 过 执行 上 述 命 令 ， 就 可 以 在 自己 的 计算 机 上 使 用 他 
人 开发 的 XXX 工具 (程序 包 ) 了 。 需 要 强调 的 是 ， 要 想 使 用 
1ibrary (XXX) 命令 ， 就 必须 先 执行 install .packages 命令 将 程 
序 包 下 载 到 自己 的 计算 机 里 。 在 执行 上 面 的 命令 时 ， 如 果 出 现 了 
错误 ， 大 都 是 因为 “未 下 载 程 序 包 ”， 此 时 只 要 再 次 执行 上 述 命 
令 即 可 。 在 每 次 启动 R 之 后 都 需要 执行 1iprary (XXX) 命令 来 加 载 
程序 包 。 
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R Console 


全 恨 而 8 国 0 Ss 





downloaded 786 KB 


trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
reshape2_1.4.2.tgz" 
Content type ‘application/x-gzip’ length 202343 bytes (197 KB) 


downloaded 197 KB 





trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
scales_0.4.1.tgz" 
Content type ‘application/x-gzip’ length 307642 bytes (300 KB) 




















downloaded 300 KB 


trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
tibble_1.2.tgz" 





























trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
lazyeval_0.2.0.tgz" 
Content type ‘application/x-gzip’ length 122487 bytes (119 KB) 























downloaded 119 KB 


trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
ggplot2_2.2.1.tgz" 
Content type ‘application/x-gzip' length 2760842 bytes (2.6 MB) 


downloaded 2. 

















The downloaded binary packages are in 
/var/folders/gq/cx6w515d1dz952b123xw9mvh0000gn/T//RtmpxkO2mD/ 


downloaded_packages @—————— |download 
n |_packages 
> libraryCggplot2) > library(ggplot2) 

> 









本 书 从 第 3 章 开 始 会 经 常 使 用 下 面 这 9 个 工具 (程序 包 )， 请 按 
照 上 述 方法 先行 下 载 。 





plyr ggplot2 scales reshape2 foreach 


rpart partykit randomForest caret 
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第 3 章 

案例 @ 一 柱状 图 

多 4 pa 人 = Zz ~ 

为 什么 销售 额 会 减少 
社交 游戏 的 销售 额 分 析 
一 款 叫 作 《 黑 猫 拼图 》 的 社交 游戏 本 月 的 销售 额 相 较 于 上 月 
有 所 下 滑 ， 于 是 想 调查 下 滑 的 原因 ， 并 提升 销售 额 ， 该 怎么 






























































做 呢 ? 
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区 本 现状 和 预期 

















在 本 书 中 ,我们 假设 某 个 社交 游戏 公司 有 一 款 叫 作 《 黑 猫 拼图 》 的 
游戏 ， 并 以 此 为 例 进行 解说 。 

《 黑 猎 拼图》 是 一 款 很 常见 的 益 智 类 游戏 ， 玩 家 通过 移动 画面 下 半 
部 分 的 彩色 砖 块 ， 使 得 一 条 线 上 的 砖 块 颜色 一 致 ， 此 时 画面 上 半 部 分 的 
黑 猫 就 会 攻击 敌人 。 这 款 游 戏 只 能 在 智能 手机 上 操作 ， 而 且 作 为 主人 公 
的 黑 猫 设计 得 非常 可 爱 ， 因 此 在 女性 用 户 中 有 着 相当 高 的 人 气 ， 并 成 为 
了 这 个 游戏 公司 的 主打 应 用 之 一 。 


























《 黑 猫 拼图 》 


这 个 游戏 的 销售 额 之 前 一 直 保 持 着 稳定 的 增长 ， 然 而 这 个 月 却 下 降 
了 。 无 论 是 从 市 场 环 境 还 是 从 游戏 本 身 的 状态 来 看 ， 这 个 游戏 的 销售 额 
都 还 有 继续 增长 的 空间 ， 因 此 销售 额 下 降 就 成 了 该 游戏 公司 的 一 个 大 问 
题 ， 于 是 开发 部 就 委托 数据 分 析 的 负责 人 来 探 明 原因 并 制定 对 策 。 下 
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面 ， 我 们 就 开始 数据 分 析 吧 。 


total.payment (JPY) 


228 万 
2 





2013-06 2013-07 
log_month 


《 黑 猫 拼图 》 的 销售 额 比较 ( 上 月 / 本 月 ) 











首先 需要 整理 出 现状 和 预期 。 从 上 图 可 以 看 出 ， 和 上 月 相 比 本 月 的 





销售 额 确实 下 降 了 。 这 里 的 “现状 ” 指 的 就 是 “和 上 月 相 比 本 月 的 销售 


额 下 


的 销售 额 还 有 继续 增长 的 空间 。 也 就 是 说 ， 本 来 的 预期 是 “希望 能 够 硬 





降 了 ”。 








而 无 论 是 从 市 场 环境 还 是 游戏 本 身 的 状态 来 看 ， 这 个 游戏 




















保 和 上 月 相同 的 销售 额 ”。 


























现状 才 多 


同上 月 相 比 
销售 额 下 降 了 


























第 3 章 的 现状 和 预期 
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发 现 问题 


首先 ， 为 了 明确 现状 和 预期 之 间 的 差距 具体 表现 在 哪里 ， 我 们 需 
要 知道 本 月 和 上 月 相 比 有 哪些 地 方 不 同 。 在 这 个 阶段 ， 重 要 的 是 从 大 局 
出 发 来 考量 ， 而 不 是 局 限于 数据 分 析 的 范畴 。 例 如 ， 可 以 尝试 进行 下 述 
假设 。 

作为 可 能 导致 销售 额 减少 的 原因 ， 上 月 和 本 月 的 不 同 之 处 有 以 下 
两 点 。 





























1. 在 商业 宣传 上 存在 问题 

2. 每 月 以 不 同 的 主题 开展 的 游戏 活动 存在 问题 

提出 假设 后 ， 接 下 来 就 应 该 尽量 用 简单 的 方法 来 大 致 验证 一 下 。 通 
过 咨询 市 场 部 和 游戏 开发 部 ， 得 到 了 以 下 信息 。 

















1. 由 于 预算 的 缘故 ， 和 上 月 相 比 ， 本 月 并 没有 开展 那么 多 的 商业 宣 
传 活动 
2. 游戏 活动 的 内 容 和 上 月 相 比 几乎 没有 变动 


根据 第 2 条 的 内 容 可 知 ， 游 戏 活动 的 内 容 相 比 之 前 没有 大 的 变化 ， 
那么 原因 很 可 能 是 第 1 条 假设 一 一 “商业 宣传 力度 不 够 导致 了 销售 额 下 
降 "。 更 进一步 来 说 ， 由 于 商业 宣传 活动 减少 了 ， 因 此 就 很 难 有 更 多 的 
人 了 解 公 司 产品 ， 产 品 也 就 很 难 获得 新 的 用 户 。 像 这 样 ， 通 过 数据 确认 
了 新 用 户 数量 的 减少 和 销售 额 下 降 之 间 的 关系 ， 接 下 来 我 们 就 来 思考 如 
何 恢复 销售 额 。 
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e 屠 强 数据 的 收集 和 和 加工 





























探讨 分 析 所 需 的 数据 
确定 了 要 分 析 的 主题 后 ， 就 需要 探讨 一 下 分 析 所 需 的 数据 了 。 
在 本 例 中 ， 我 们 需要 哪些 数据 呢 ? 
这 里 我 们 提出 的 假设 如 下 所 示 。 


@ 和 上 月 相 比 ， 本 月 的 销售 额 减少 了 ( 事实 ) 
@ 本 月 的 商业 宣传 活动 相 比 上 月 减少 了 ( 事实 ) 
因此 ， 新 用 户 的 数量 也 减少 了 ( 假设 ) 


e@ 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 


基于 这 个 假设 ， 为 了 加 快 问题 的 解决 ， 让 我 们 整理 一 下 分 析 的 


过 程 。 


1.《 黑 猫 拼 图 》 游 戏 的 销售 额 相 比 上 月 减少 了 ( 事实 ) 
2. 通过 观察 销售 额 的 构成 ， 发 现 新 用 户 带 来 的 销售 额 减少 了 ”( 假设 ) 
3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 解决 方案 ) 


要 想 完成 上 述 流程 ， 需 要 知道 《 黑 猫 拼图》 游戏 销售 额 的 构成 。 为 
此 ， 以 下 数据 是 必 不 可 少 的 。 
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@DAU(Daily Active User， 每 天 至 少 来 访 1 次 的 用 户 数据 ) 

@DPU(Daily Payment User， 每 天 至 少 消费 1 日 元 的 用 户 数据 ) 

@ Install( 记录 每 个 用 户 首次 玩 这 个 游戏 的 时 间 的 数据 ) 

另外 ， 对 于 上 述 3 部 分 数据 ， 具 体 需 要 收集 的 内 容 如 下 所 示 。 
@@ DAU 

R 语言 中 的 标识 
访问 时 间 string ( 字符 串 ) log_data 
应 用 名 称 string ( 字符 串 ) app_name 
户 ID int ( 数值 ) user_id 


































































































R 语言 中 的 标识 
消费 日 期 string ( 字符 串 ) log_data 
应 用 名 称 string ( 字符 串 ) app_name 

户 ID int ( 数值 ) user_id 
消费 额 int ( 数值 ) Payment 






























































数据 类 型 R 语言 中 的 标识 
首次 使 用 的 日 期 string ( 字符 串 install_data 
应 用 名 称 string ( 字符 串 app_name 
用 户 ID int ( 数值 ) user_id 





作为 基本 的 日 志 数 据 ， 这 些 数据 每 天 都 会 被 累积 并 存储 起 来 。 
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收集 分 析 所 需 的 数据 


国 读 入 分 析 所 需 的 数据 文件 

在 确定 了 分 析 所 需 的 数据 对 象 后， 下 一 步 需要 考虑 的 就 是 具体 的 数 
据 收 集 了 。 在 本 例 中 ， 各 种 数据 都 以 csv 文件 的 格式 保存 在 服务 器 上 。 
为 了 能 用 分 析 工 具 R 语言 来 处 理 这 些 文件 ， 首 先 需要 读 人 这 些 数据 。 








国 确认 各 种 数据 的 格式 
我 们 需要 先 确认 从 csv 文件 中 读 入 的 各 种 数据 的 内 容 。 



















































































@ DAU ( 每 天 至 少 来 访 1 次 的 用 户 数 据 ) -全 
访问 时 间 应 用 名 称 
1 2013 年 6 月 1 日 《 黑 猫 拼图 》 116 
2 2013 年 6 月 1 日 《 黑 猫 拼图 》 13491 
3 2013 年 6 月 1 日 《 黑 猫 拼图 》 7006 
4 2013 年 6 月 1 《 黑 猫 拼 图 》 117 
5 2013 年 6 月 1 日 《 黑 猫 拼图 》 13492 
6 2013 年 6 月 1 《 黑 猫 拼 图 》 9651 

































































原始 的 DAU 数据 里 包含 了 《 黑 猫 拼图 》 游 戏 所 有 用 户 的 数据 。 我 
们 以 上 表 中 浅 灰色 那 行为 例 来 介绍 一 下 数据 的 内 容 。 该 行 表 示 “2013 年 
6 月 1 日 ID 为 116 的 《 黑 猫 拼图 》 游 戏 用 户 玩 了 这 个 游戏 "。 每 天 玩 
《 黑 猫 拼图 》 游 戏 的 全 部 用 户 的 ID 都 在 这 份 数据 里 。 








@ DPU ( 每 天 至 少 消费 1 日 元 的 用 户 数 据 ) 































































































访问 时 间 应 用 名 称 用 户 ID ”消费 额 /日 元 
1 2013 年 6 月 1 《 黑 猫 拼图 》 351 1333 
2 2013 年 6 月 1 《 黑 猫 拼图 》 12796 81 
3 2013 年 6 月 1 《 黑 猫 拼图 》 364 571 
4 2013 年 6 月 1 《 黑 猫 拼图 》 13212 648 
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( 续 ) 
访问 时 间 应 用 名 称 用 户 ID 消费 额 / 日 元 
5 2013 年 6 月 1 《 黑 猫 拼图 》 T3212 1142 
6 2013 年 6 月 1 日 《 黑 猫 拼图 》 13212 571 



























































DPU 数据 仅 包含 了 在 游戏 中 发 生 消费 行为 的 用 户 及 其 消费 金额 。 以 
数据 内 容 的 第 1 行为 例 ， 它 表示 “2013 年 6 月 1 日 ID 为 351 的 用 户 支 
付 了 1333 日 元 "”。 另 外 ， 正 如 上 述 数据 所 示 ， 这 里 保存 的 是 用 户 从 游戏 
开始 到 结束 所 消费 的 金额 ， 所 以 当 同 一 个 用 户 同一 天 多 次 访问 游戏 时 ， 
每 一 次 的 消费 金额 数据 都 会 被 记录 下 来 。 


@ Install ( 记录 每 个 用 户 首 次 玩 这 个 游戏 的 时 间 的 数据 ) 
















































































首次 使 用 的 日 期 应 用 名 称 用 户 ID 
1 2013 年 4 月 15 晶 《 黑 猫 拼图 》 1 
2 2013 年 4 月 15 日 《 黑 猫 拼图 》 2 
3 2013 年 4 月 15 日 《 黑 猫 拼图 》 3 
4 2013 年 4 月 15 日 《 黑 猫 拼图 》 4 
5 2013 年 4 月 15 日 《 黑 猫 拼图 》 5 
6 2013 年 4 月 15 日 《 黑 猫 拼图 》 6 



























































最 后 介绍 的 Install 数据 记录 了 每 个 用 户 于 何 年 何 月 何 日 首次 玩 这 个 
游戏 。 以 上 表 中 第 1 行 的 数据 为 例 ， 它 表示 “ID 为 1 的 用 户 在 2013 年 
4 月 15 日 第 一 次 玩 《 黑 猫 拼图 》 游 戏 ”。 











加 工分 析 所 需 的 数据 ( 前 期 处 理 ) 


现在 我 们 收集 了 玩 过 《 黑 猫 拼图 》 游 戏 的 用 户 信息 (DAU )、 消 费 
言 息 ( DPU ) 和 首次 使 用 日 期 的 信息 ( Install )。 从 现在 开始 我 们 要 对 数 
据 进行 加 工 ， 使 其 能 够 应 用 于 数据 分 析 。 
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把 初始 数据 加 工整 理 成 可 供 分 析 的 数据 ， 这 一 过 程 称 为 “前 期 处 
理 ”。 为 了 配合 各 种 分 析 方 法 ， 我 们 需要 将 数据 加 工 成 可 供 这 些 分 析 方 
法 使 用 的 形式 。 每 种 分 析 方法 所 需 的 数据 格式 可 能 都 不 一 样 ， 这 就 需要 
我 们 根据 所 使 用 的 分 析 方 法 来 确定 如 何 加 工 数据 。 

另外 ， 一 些 数据 分 析 方法 对 于 噪声 数据 比较 敏感 。 如 果 使 用 这 类 分 
析 方 法 ， 那 么 还 需要 将 噪声 数据 去 除 。 

在 本 例 中 ， 我 们 的 目的 是 判断 “销售 额 减少 是 否 受到 了 新 用 户 因素 
的 影响 ”。 为 了 达到 这 个 目的 ， 我 们 需要 对 数据 进行 如 下 加 工 。 












































1. 把 用 户 信息 数据 ( DAU ) 和 首次 使 用 的 日 期 数据 ( Install ) 相 结合 
为 了 得 到 某 一 天 首次 玩 《 黑 猫 拼图 》 游 戏 的 人 数 ， 我 们 需要 将 用 户 
ID 作为 key， 把 具有 相同 用 户 ID 的 用 户 信 息 和 Install 数据 结合 起 来 。 


R-CODE 
> 


2. 将 上 述 数 据 再 与 消费 信息 数据 ( DPU ) 相 结 合 

为 了 得 到 在 某 一 天 有 消费 行为 的 用 户 数 量 ， 把 用 户 ID 和 消费 日 期 
作为 key, 将 DAU 和 DPU 的 数据 结合 起 来 。 此 时 ， 由 于 DPU 中 未 包 
含 没 有 消费 行为 的 用 户 数据 ， 因 此 最 终 的 数据 中 不 仅 保留 了 各 数据 相 结 


合 的 记录 ， 也 保留 了 没有 和 DPU 数据 相 结合 的 记录 。 《RN 
03.03/ 03-04/ 


3. 将 未 消费 用 户 的 消费 额 设置 为 零 
在 DAU 中 ， 有 消费 行为 的 用 户 只 是 其 中 的 一 部 分 。 在 第 2 步 中 未 能 
和 DPU 数据 相 结合 的 记录 也 被 保存 了 下 来 ， 因 此 在 消费 额 中 出 现 了 缺失 
值 。 由 于 有 缺失 值 的 存在 ， 在 计算 平均 值 等 的 过 程 中 就 会 出 现 问题 。 因 此 
需要 将 数据 中 的 缺失 值 (NA ) 替换 为 0， OE 
ey 





























@ 到 目前 为 止 加 工 处 理 得 到 的 数据 



















































































访问 日 期 应 用 名 称 ” 用 户 ID ”首次 使 用 的 日 期 ”消费 额 /日 元 
1 |2013 年 6 月 1 《 黑 猫 拼图 》 1 2013 年 4 月 15 0 
2 | 2013 年 6 月 1 《 黑 猫 拼 图 》 3 2013 年 4 月 15 0 
3 | 2013 年 6 月 1 《 黑 猫 拼图 》 6 2013 年 4 月 15 0 
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4 | 2013 年 6 月 1 日 |《 黑 猫 拼图 》| 11 2013 年 4 月 15 日 0 
5 | 2013 年 6 月 1 《 黑 猫 拼图 》 | 17 |2013 年 4 月 15 0 
6 | 2013 年 6 月 1 《 黑 猫 拼图 》 | 18 |2013 年 4 月 15 0 
7 |2013 年 6 月 1 日 |《 黑 猫 拼图 》 | 19 |2013 年 4 月 15 日 162 
8 | 2013 年 6 月 1 《 黑 猫 拼图 ) | 28 | 2013 年 4 月 15 0 
4. 按 月 统计 
在 本 例 中 ,为 了 观察 上 月 和 本 月 数据 的 差别 ， 数 据 将 会 按照 月 份 来 
统计 ， 也 就 是 按 月 统计 用 户 信 息 。 下 
@ 按 月 统计 的 数据 
访问 月 份 用 户 ID 首次 使 用 月 份 消费 额 /日 元 
1 2013 年 6 月 1 2013 年 4 月 0 
2 2013 年 6 月 2 2013 年 4 月 0 
3 2013 年 6 月 3 2013 年 4 月 14994 
4 2013 年 6 月 4 2013 年 4 月 0 
5 2013 年 6 月 6 2013 年 4 月 0 
6 2013 年 6 月 7 2013 年 4 0 















































5. 在 按 月 统计 的 数据 中 区 分 新 用 户 和 已 有 用 户 
为 了 确认 新 用 户 的 数量 是 否 减少 了 ， 我 们 可 以 比较 某 个 用 户 的 首次 
使 用 月 份 和 访问 月 份 是 否 相 同 ， 如 果 相 同 则 是 新 用 户 ， 和 否则 便 是 已 有 


sz 
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@ 包含 新 用 户 /已 有 用 户 标签 的 数据 
和 _ 新 用 户 / 
访问 月 份 。 用 户 ID 首次 使 用 月 份 ”消费 额 /日 元 Pe 
1 2013 年 6 月 | 2013 年 4 月 0 已 和 
2 2013 年 6 月 2 2013 年 4 月 0 已 有 用 户 
3 2013 年 6 月 3 2013 年 4 月 14994 已 和 
22930 | 2013 年 7 22700 2013 年 7 月 0 新 
22931 2013 年 7 22701 2013 年 7 月 0 新 
22932 | 2013 年 7 22702 2013 年 7 月 0 新 用 户 


















































上 月 (2013 年 6 月 ) 和 本 月 (2013 年 7 月 ) 的 已 有 用 户 和 新 用 户 
的 消费 额 数据 统计 如 下 表 所 示 。 


@ 上 月 和 本 月 的 新 用 户 /已 有 用 户 的 消费 额 统计 





















































访问 月 份 
已 有 用 户 177886 
2013 年 6 月 
新 用 户 49837 
已 有 用 户 177886 
2013 年 7 
新 用 户 29199 
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e 丈 加 数据 分 析 


小 


3 章 为 什么 销售 额 会 减少 




















数据 可 视 化 制图 


现在 我 们 已 经 完成 了 数据 加 工 ， 并 将 数据 整理 成 适合 数据 分 析 的 状 
态 了 。 通 常 有 经 验 的 分 析 师 会 反复 输出 、 确 认 整 理 好 的 数据 ， 在 观察 各 
种 数据 的 过 程 中 找 出 问题 的 原因 。 本 书 为 了 让 读者 更 容易 理解 ， 将 数据 
转换 为 数据 图 后 再 做 分 析 。 柱 状 图 是 一 种 有 助 于 有 效 把 握 数 据 内 容 的 工 
具 ， 现 在 我 们 就 用 它 来 将 数据 可 视 化 。 






































R-CODE 


200,000- 新 用 户 
新 用 户 
二 150,000- 
过 
1» 
入 
车 user.type 
E existing 
100,000- 已 有 用 户 已 有 用 户 国 install 
50,000- 
0- 
2013-06 log_month 2013-07 


《 黑 猫 拼图 》 游 戏 的 销售 额 比较 ( 上 月 /本 月 ) 
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上 图 中 左边 的 柱子 表示 的 是 上 月 的 销售 额 ， 右 边 的 柱子 表示 的 是 本 
月 的 销售 额 。 已 有 用 户 分 类 到 “existing” 的 类 别 下 ， 而 新 用 户 分 到 
“install” 的 类 别 下 。 从 图 中 来 看 ， 已 有 用 户 带 来 的 销售 额 几 乎 没有 变 
化 ， 而 新 用 户 带 来 的 销售 额 却 下 降 了 ， 由 此 导致 本 月 销售 额 整体 下 降 。 
也 就 是 说 ， 我 们 在 初步 分 析 中 得 到 的 结果 很 顺利 地 验证 了 之 前 提出 的 
假设 。 

下 面 我 们 来 具体 看 一 下 哪个 消费 层次 的 消费 额 减少 了 。 这 里 我 们 来 
败 一 个 只 有 新 用 户 数据 的 柱状 图 ， 将 新 用 户 上 月 和 本 月 的 支付 情况 可 视 
化 。 在 下 图 中 ， 横 轴 表 示 该 月 的 总 计 消 费 额 ， 一 个 柱子 的 宽度 代表 1000 





















































日 元 ， 纵 轴 表 示 该 消费 额 相应 的 用 户 数 。 
> 
0 “消费 2000 日 元 以 下 
: :的 用 户 数量 减少 了 
30- 
log_month 
七 2013-06 
3 20 团 2013-07 


0- CE 


0 5000 10000 15000 
payment (JPY) 


《 黑 猫 拼图 》 游 戏 中 新 用 户 的 消费 额 比较 ( 上 月 / 本 月 ) 





在 上 图 中 ， 数 据 以 柱状 图 的 形式 表示 了 出 来 。 我 们 可 以 看 出 ， 和 上 
月 (2013 年 6 月 ) 相 比 ,本 月 (2013 年 7 月 ) 消费 额 在 2000 日 元 以 下 
的 用 户 数量 减少 了 。 
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不 付出 大 量 的 劳动 就 不 可 能 提升 名 次 


4 








< 即使 只 付出 了 较 少 的 劳动 也 可 提升 名 次 

















一 名 次 ( 低 
商业 数据 中 经 常会 出 现 如 上 图 所 示 的 震 律 分 布 。 根 据 笔者 以 往 的 经 


























| 验 ， 凡 是 跟 人 们 的 心理 有 关系 的 数据 ， 比 如 某 类 商品 的 销售 状况 、 旅 游 





























| 景点 的 人 气 指数 ， 














| 似 上 图 的 分 布 形状 。 
| 下 面 我 们 来 讨论 一 下 这 种 数据 形状 出 现 的 背景 。 它 反映 了 一 种 常见 
| 的 竞争 心理 ， 想 超越 大 多 数 人 往 上 升 ， 只 需 稍微 付出 一 些 努力 即 可 , 但 | 
， 还 只 是 付出 和 之 前 一 样 的 努力 是 很 难 实现 的 。 实 际 上 与 | 























| 想 升 到 最 高 处 














或 者 某 个 时 间 段 关 键 词 的 搜索 次 数 等 ， 大 多 都 具有 类 

































































| 人 们 心理 相关 的 数据 都 会 表现 出 这 样 的 分 布 特性 。 很 多 学 者 根据 商业 数 | 





| 据 中 经 常 出 现 的 这 














文 种 分 布 形状 提出 了 各 种 各 样 的 研究 课题 和 规律 ， 比 








| 如， 人们 发 现 八成 的 销售 额 来 源 于 二 成 的 商品 ， 这 一 规律 被 称 为 “二 八 





| 法则 ”或 者 “长 尾 


入 于 
效应 "。 











在 社交 游戏 中 ， 用 户 可 以 用 金钱 来 购买 劳动 。 由 于 大 部 分 用 户 消费 










































































得 很 少 ， 所 以 你 只 需要 花 不 多 的 钱 就 可 以 让 自己 的 排名 大 幅 上 升 。 然 











而， 如 果 你 想 占 





| 这 也 是 人 们 的 竞争 心理 结构 在 数据 分 布 上 的 表现 。 








排行 榜 的 顶端 ， 那 么 所 要 花费 的 金额 马上 就 会 上 涨 。 
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解决 对 策 


我 们 先 来 回顾 一 下 数据 分 析 之 前 设立 的 假说 。 














1.《 黑 猫 拼 图 》 游 戏 的 销售 额 相 比 上 月 减少 了 ( 事实 ) 
2. 通过 观察 销售 额 的 构成 ， 发 现 新 用 户 带 来 的 销售 额 减少 了 ( 假设 ) 
3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 解决 方案 ) 





而 且 ， 根 据 此 前 数据 分 析 的 结果 ， 我 们 可 以 知道 : 





1.《 黑 猫 拼图 》 游 戏 的 销售 额 和 上 月 相 比 减少 了 ( 事实 ) 
2. 通过 观察 销售 额 数 据 的 构成 ， 发 现 新 用 户 带 来 的 销售 额 减少 了 ， 
其 中 消费 额 在 2000 日 元 以 下 的 轻 度 消费 用 户 的 人 数 减少 所 造成 
的 影响 最 大 ( 事实 ) 
3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 确信 和 度 较 高 的 解决 方案 ) 


基于 上 述 结 果 ， 我 们 可 以 采取 下 面 的 解决 对 策 来 提升 销售 额 。 

新 用 户 中 的 消费 用 户 数量 减少 了 ， 特 别 是 消费 金额 较 少 的 小 额 消费 
户 数量 减少 了 。 因 此 ， 公 司 需 要 再 次 开展 商业 宣传 活动 并 恢复 到 之 前 的 水 
平 ， 这 样 才 有 可 能 提升 潜在 用 户 对 公司 产品 的 认 知 度 ， 增 加 新 的 用 户 。 这 样 
一 来 ， 才 会 增加 小 额 消费 用 户 的 数量 ， 将 销售 额 恢复 到 与 上 月 相同 的 水 平 。 

顺便 说 一 下 ， 在 实际 再 次 开展 商业 宣传 活动 时 ， 需 要 判断 商业 宣传 
活动 的 花费 能 和 否 和 新 用 户 的 顾客 终身 价值 (Life Time Value, LTV) 相 
当 。 在 本 案例 中 ， 通 过 比较 用 其 他 方法 计算 出 来 的 LTV 和 获取 用 户 的 
成 本 ， 决 定 再 次 开展 商业 宣传 活动 。 
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< 小 结 











本 章 主要 介绍 了 如 何 使 用 柱状 图 来 做 数据 分 析 。 

和 上 月 相 比 ， 本 月 销售 额 下 降 了 ， 我们 将 其 作为 问题 ， 探 讨 了 问题 
出 现 的 原因 。 在 商业 数据 分 析 中 ， 很 重要 的 一 点 就 是 在 数据 分 析 之 前 ， 
尽 可 能 地 多 听取 相关 部 门 的 意见 ， 充 分 了 解 事实 。 在 此 基础 上 ， 再 和 相 
关 负 责 人 共同 讨论 可 能 的 原因 ， 并 用 数据 进行 验证 。 


























分 析 流 程 第 3 章 中 数据 分 析 的 成 本 
现状 和 预期 中 
发 现 问题 低 
数据 的 收集 和 加 工 低 
数据 分 析 中 
解决 对 策 低 
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二 详细 的 愉 代 三 




















读 入 CSV 文件 


# 读 入 CSV 文 件 D302 


dau <- read.csv("section3-dau.csv'", header = T, stringsAsFactors = F) 
head (dau) 
dpu <- read.csv("section3-dpu.csv", header = T, stringsAsFactors = F) 
head (dpu) 
install <- read.csv("section3-install.csv", header = T, stringsAsFactors 
= 
head (install) 
输入 read.csv (AA,header=T,stringsAsFactors=F) ， 就 可 以 把 
文件 名 为 AA 的 文件 读 入 及 语言 中 。RARA 后 面 的 header=T 表示 读 入 的 文 
件 带 有 数据 头 ， 其 中 了 表示 Tzue。 相 反 ， 如 果 读 人 的 文件 没有 数据 头 ， 
全 是 数据 ， 则 输入 F ( false )。 此 处 读 入 的 数据 文件 中 包含 了 表示 各 列 数 
据 内 容 的 数据 头 ， 所 以 设 为 T。 下 一 个 参数 是 stringsAsFactors， 它 表示 
“即使 数据 中 混入 了 字符 也 照常 处 理 ”。 这 里 先 直接 输入 这 个 参数 。 
命令 A <- BBB 表示 将 BBB 的 处 理 结果 放 入 到 R 语言 中 名 为 A 的 数 
据 存 储 空间 里 。 
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@ DAU 

| log date app name user id 

| 1 2013-06-01 game-01 116 | > 2013 年 6 月 1 日 ,ID 为 116 的 用 户 使 | 
2 2013-06-01 game-01 13491 用 了 名 为 game-01 的 应 用 

















3 2013-06-01 game-01 7006 
4 2013-06-01 game-01 117 
! 5 2013-06-01 game-01 13492 
6 2013-06-01 game-01 9651 ! 


上 述 数 据 被 放 入 名 为 DAU 的 数据 存储 空间 里 。 这 些 数 据 包 含 了 各 个 


日 期 里 使 用 该 应 用 的 全 部 用 户 的 ID。 





® DPU 

: ## log date app name user id payment 

: 样 厂 2013-06-01 game-01 351 ”1333 | > 2013 年 6 月 1 日 ,ID 为 351 | 
| 样 2 2013-06-01 game-01 12796 81 的 用 户 消费 了 1333B 元 | 
| 样 3 2013-06-01 game-01 364 571 
| 样 4 2013-06-01 game-01 13212 648 | 


## 5 2013-06-01 game-01 13212 1142 
## 6 2013-06-01 game-01 13212 S71 


DPU 仅 保存 了 有 消费 行为 的 用 户 每 日 所 消费 的 金额 数据 。 


@@ Install 


最 后 是 ins 


## install date app name user id 

椿 [30713-0475 game-01 ”了 ] 二 ID 为 的 用 户 在 2013 年 4 月 15 昌 
## 2 2013-04-15 game-01 
1 ## 3 2013-04-15 game-01 
## 4 2013-04-15 game-01 
## 5 2013-04-15 game-01 
## 6 2013-04-15 game-01 


首次 使 用 该 应 用 


OO UW DD 














tall， 这 里 保存 了 各 个 用 户 是 在 何 年 何 月 何 日 首次 玩 这 





个 游戏 的 数据 信息 的 。 
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合并 DAU 和 Install 的 数据 
dau.install <- merge(dau, install, by = c("user id", "app name")) < 


head (dau.install) 


merge 函数 用 于 将 两 块 数据 合并 到 一 起 。 

输入 merge (A,B,by=c ("XXX")) 后 ， 就 可 以 将 A 数据 和 B 数据 中 
XXX 属性 内 容 相同 的 行 合并 起 来 。 此 处 我 们 把 aau 数据 和 install 数据 
中 user id 和 app_name 内 容 相 同 的 行 合 并 起 来 。 也 就 是 说 ， 通 过 指定 
py 后 面 的 内 容 ， 我 们 就 把 game -01 应 用 中 同一 个 用 户 ID 的 数据 合并 了 
起 来 。 














## user id app name 0g date install date | 
## 1 1 game-01 2013-06-03 ”2013-04-15 ”他 game-01 应 用 中 ID 为 ; 
# 2 1 game-01 2013-06-14 ”2013-04-15 ”1 的 用 户 的 使 用 日 期 ， 
## 3 1 game-01 2013-07-09 2013-04-15 0 : 
提 # 4 1 game-01 2013-06-10 2013-04-15 
## 5 1 game-01 2013-06-08 2013-04-15 
## 6 1 game-01 2013-06-05 2013-04-15 





为 了 方便 阅读 ， 最 左边 的 一 列 是 连续 的 行 号 ， 然 后 向 右 依 次 是 
user id、app_name、1og data、install data 的 数据 。 上 述 的 合并 
是 成 功 的 ， 若 是 失败 了 ， 就 会 显示 错误 。 这 种 错误 的 发 生 ， 多 是 因为 输 
入 类 型 错误 或 者 数据 不 完善 ( 这 里 主要 是 指 本 该 输入 数字 的 地 方 混入 了 
字符 ) 等 ， 请 仔细 确认 。 














合并 上 述 数据 和 DPU 数据 
dau.install.payment <- merge(dau.install, dpu, by = cl("1og date", 03-03, 


vapplnamen se ul 
head (dau.install .payment) 


此 处 我 们 依然 使 用 merge 函数 来 合并 新 的 数据 。 
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## 0g _ date app name user id install date|payment | 
| 样 1 2013-06-01 game-01 1 2013-04-15 全 新 合并 了 消 | 
| 料 2 2013-06-01 game-01 3 2013-04-15 费 金额 数据 ， 
; 料 3 2013-06-01 game-01 6 2013-04-15 | 
| ## 4 2013-06-01 game-01 11 2013-04-15 | 
: ## 5 2013-06-01 game-01 17 2013-04-15 | 
: 村 6 2013-06-01 game-01 18 2013-04-15 : 

可 以 看 到 ， 行 号 后 依次 是 1og data、app name、 user id、 install_ 








data， 最 右边 合并 了 一 列 消费 金额 数据 (payment )。 然 而 ， 这 里 并 没 
有 显示 消费 金额 ， 显 示 的 是 文字 “NA”。 这 是 因为 只 有 发 生 了 消费 行 》 
的 用 户 才 会 产生 数据 ， 和 否则 就 没有 数据 ， 缺 失 的 数据 在 合并 后 就 显示 为 
“NA ”。 

实际 上 应 该 是 消费 金额 数据 和 “NA” 混 杂 在 一 起 ， 在 数据 金额 那 一 
列 里 还 应 该 有 “NA” 以 外 的 其 他 数值 的 记录 存在 ,但 是 上 图 中 前 6 行 记 
录 的 消费 金额 全 都 是 “NA”， 所 以 我 们 还 不 太 确 定 消费 金额 数据 是 否 已 
经 和 之 前 的 数据 正确 地 合并 了 。 为 了 确认 这 一 点 ， 输 入 下 列 代码 ， 查 看 
消费 金额 为 非 “NA” 的 数据 。 


R-CODE 
head (na.omit (dau.install .payment)) 3-044 












































0g_date app_name user id install date |payment 





全 确认 了 存 | 


186 2013-06-01 game-01 1359 2013-04-23 
271 2013-06-01 game-01 3547 2013-04-27 
797 2013-06-01 game-01 3453 2013=05=20 


payment 项 目 显 示 了 “NA” 以 外 的 数据 ， 即 消费 金额 ， 这 意味 着 
payment 属性 为 数值 的 记录 已 成 功 合 并 了 进去 。 


| 7 2013-06-01 game-01 19 2013-04-15 

| 81 2013-06-01 game-01 351 2013-04-18 在 消费 金 | 
| 3-06-01 game-01 364 2013-04-18 额 为 非 室 | 
| 的 数据 。， 


间 提 间 间 间 间 关 
提亲 间 亲 半 间 六 
Oo 
心 
ID 
OO 
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将 未 消费 用 户 的 消费 额 设置 为 零 
# 将 未 消费 的 记录 的 消费 额 设置 为 0 os 


dau.install.payment$payment [is.nal(dau.install.payment$payment)] <- 0 
head (dau.install .payment) 








输入 AASBB [is.na(AASBB)] <- 0, 将 数据 AA 中 属性 BB 为 “NA” 
的 数据 蔡 换 为 “0” 

在 上 述 数据 处 理 中 ， 未 消费 的 用 户 被 标记 为 “NA”， 这 并 不 是 一 个 
好 的 状态 。 那 么 没有 消费 的 用 户 应 该 用 什么 来 标记 合适 呢 ? 虽然 需要 具 











体 分 析 ， 但 这 里 我 们 认为 用 “0” 来 表示 比较 合适 ， 于 是 输入 上 述 代码 。 
: ## 0g_date app name user id install date|payment 
i 托 1 2013-06-01 game-01 1 2013-04-15 0 | 二 用 “0" 来 蔡 | 
| 拌 2 2013-06-01 game-01 3 2013-04-15 0| 换 缺 失 值 | 
i 样 3 2013-06-01 game-01 6 2013-04-15 0| “NA" | 
## 4 2013-06-01 game-01 11 2013-04-15 0 | 
## 5 2013-06-01 game-01 17 2013-04-15 0 
## 6 2013-06-01 game-01 18 2013-04-15 0 





和 之 前 的 输出 结果 相 比 ， 可 以 看 到 user_id 为 1 的 用 户 的 “NA” 
属性 值 已 经 被 替换 为 “0” 了 。 


按 月 统计 
# 增加 一 列表 示 月 份 les-08) 


dau.install.payment$log month <-substr(dau.install.payment$1log 
qaten dl 7) 
dau.install.payment$install month 

< substr(dau nstall paymentS installdate il 省 





install .packages (plyr 
I brany (ue 
mau.payment <- ddply(dau.install.payment, 

log month, user id，install month)，# 分 组 
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summarize, # 汇总 命令 
payment = sum(payment) # payment 的 总 和 


) 


head (mau.payment) 








现在 分 析 的 数据 ， 都 是 年 月 日 (例如 2013-04-15 ) 这 种 按 日 统计 
的 数据 。 如 果 需 要 按 月 分 析 ， 则 需要 生成 按 月 统计 的 信息 。 这 就 需要 从 
年 月 日 (例如 2013-04-15 ) 的 数据 中 提取 并 汇总 年 和 月 的 部 分 。 

输入 AA$SCC <- substr (AA$BB,1,4) 的 命令 ,将 AR 数据 的 BB 列 
属性 的 第 1 到 第 4 个 字符 提取 出 来 ， 并 作为 AA 数据 的 cc 属性 值 输入 。 
现 有 的 数据 中 日 期 的 格式 为 “YYYY-MM-DD”， 因 此 需要 提取 前 面 7 个 字 
符 ， 也 就 是 “YYYY-MM” 的 部 分 。 使 用 日 期 和 首次 使 用 日 期 两 个 数据 都 
需要 做 这 个 处 理 。 

下 一 步 是 汇总 。 数 据 的 汇总 可 以 使 用 1ibrary (plyr) 。 关 于 程序 包 
/工具 ， 请 参考 “R 语言 入 门 ”里 的 解释 。 此 处 下 载 名 为 plyr 的 工具 ， 
并 在 自己 的 计算 机 上 将 其 设置 到 可 用 状态 。 

利用 函数 ddply (AAA, . (B,C) ， summarize,XXX=sum(XXX) ) ， 按 
照 AAA 数据 的 属性 B 和 c 来 分 组 ， 并 用 加 法 来 计算 总 和 。 这 里 我 们 使 用 
的 是 1og month,user id,install month， 即 按照 每 个 有 记录 的 月 份 
(1og month )、 每 个 用 户 ID ( user id) 和 每 个 首次 使 用 月 份 ( install 
month ) 来 合计 消费 金额 。 













































































全 访问 时 间 和 首次 使 用 日 ; 
期 从 以 日 为 单位 转换 到 ; 
以 月 为 单位 , 消费 金额 ; 
也 以 月 为 单位 来 汇总 

















最 终 ,，mau .payment 数据 里 面 保 存 了 访问 月 份 为 2013 年 6 月 、7 
月 和 首次 使 用 月 份 为 2013 年 4 月 的 每 个 用 户 的 数据 。 
当前 这 份 数 据 ， 通 过 仔细 观察 ， 也 能 够 进行 分 析 ， 但 是 作为 一 个 合 
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格 的 数据 科学 家 ， 我 们 可 以 根据 首次 使 用 月 份 的 数据 ， 对 数据 进行 追加 
汇总 ， 在 制 成 图 表 的 时 候 ， 让 新 用 户 和 已 有 用 户 的 增 减 一 目 了 然 。 


增加 属性 来 区 分 新 用 户 与 已 有 有 用户 


R-CODE 
# 识别 新 用 户 和 已 有 用 户 


mau.payment $user.type 
<- ifelse(mau.payment$install month == mau.payment$log month, 
Hola hee ethene 





























mau.payment .summary <- ddply (mau.payment, 


. (log month, user.type), # 分 组 
summarize, # 汇总 命令 


total.payment = sum(payment) # payment 的 总 和 
) 

head (mau .payment) 

head (mau.payment .summary) 








ifelse (AA==BB，“"XX", "YY") 冰 数 表示 如 果 属 性 AA 和 属性 BB 的 
值 相同 ， 则 记 为 ZXX， 如 果 不 同 则 记 为 YY。 利 用 这 个 函数 ， 如 果 用 户 的 
首次 使 用 月 份 和 最 近 使 用 月 份 相同 ， 就 为 新 用 户 , 在 mau.payment 数 
据 的 user.type 属性 列 中 记 入 “instal1”。 如 果 这 两 个 月 份 不 同 ， 就 
为 已 有 用 户 ， 在 user.type 属性 列 中 记 入 “existing”。 


## log month user.type total.payment 之 6 月 和 7 月 的 消费 额 按 照 



































## 1 2013-06 existing 177886 已 有 用 户 和 新 用 户 分 开 
## 2 2013-06 install 49837 输出 

## 3 2013-07 existing 177886 

## 4 2013-07 install 29199 
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数据 可 视 化 


R-CODE 


03-08 
brary (qlotD) Wh 


library (scales) 





ggplot (mau.payment .summary, aes(x = log month, y = total.payment, 
fill = User.type)) + geom bar() + Scale y continuous(label = comma) 


R 语言 的 程序 包 里 通常 包含 有 用 于 绘图 的 工具 。 这 里 我 们 需要 使 用 
一 个 在 R 语 言 分 析 中 必须 用 到 的 制图 工具 ggplot2， 来 确认 数据 。 
ggplot2 包含 有 丰富 的 功能 ， 很 多 书 中 都 对 这 些 功能 做 出 了 详细 的 解 
释 ， 这 里 我 们 先 直 接 使 用 上 述 命令 。 如 果 更 换 上 述 命令 中 的 1og_montp 
或 者 total .payment 等 属性 名 称 ， 则 会 得 到 不 同 的 图 形 。 

需要 注意 的 是 ， 在 使 用 ggp1lot2 作 图 时 存在 不 能 显示 汉字 的 情况 。 
此 时 我 们 可 以 通过 library(sysfonts) 和 1ibrary(showtext) 命令 
导入 字体 包 来 解决 这 个 问题 。 

男 外， 我 们 还 使 用 了 scales 程序 包 。 这 是 一 个 将 普通 数字 转换 为 
以 三 位 数 为 一 个 区 间 来 显示 的 工具 ， 例 如 1000 经 转换 后 为 1,000。 利 用 
上 述 工 具 生 成 的 数据 图 如 下 所 示 。 
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~ 150,000- 
ps 
D_ 
之 
本 Usertype 
时 existing 
EE ls 
> 加 install 
8 100,000- 
页 
© 
友 
50,000- 


2013-06 2013-07 
log_month 


《 黑 猫 拼图 》 游 戏 的 销售 额 比较 ( 上 月 /本 月 ) 


下 面 我 们 只 考虑 新 用 户 的 数据 ， 将 上 月 和 本 月 的 销售 状况 以 柱状 图 
的 形式 表示 出 来 。 


R-CODE 
ggplot (mau.payment [mau.payment$payment > 0 & 03-094 


mau.paymentSuser.type == "install", ], aes(x = payment, 
fill = log month)) + geom histogram(position = "dodge", binwidth = 2000) 
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《 黑 猫 拼图 》 游 戏 新 用 户 的 销售 额 数据 比较 ( 上 月 /本 月 ) 
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[分 析 基 础 ] 篇 


第 4 章 
案例 @ 一 交叉 列表 统计 


什么 样 的 顾客 会 选择 离开 


社交 游戏 的 用 户 流失 分 析 

和 上 月 相 比 ， 本 月 《 黑 猫 拼图 》 游 戏 的 用 户 数 减少 了 很 多 。 
和 上 月 相 比 ， 本 月 的 商业 宣传 和 月 度 活动 并 无 大 的 变化 。 医 
此 ， 我 们 需要 调查 清楚 用 户 数 大 量 减少 的 原因 并 改善 这 种 状 
况 ， 那 么 我 们 该 怎么 做 呢 ? 
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本 现状 和 预期 























《 黑 猫 拼图 》 游 戏 从 发 布 到 现在 已 经 有 一 年 零 三 个 月 了 。 在 游戏 由 
发 布 时 ， 用 户 数 大 量 增加 ， 其 中 大 部 分 是 游戏 发 布 前 就 已 经 注册 的 用 
户 。 然 而 ， 几 周 后 的 一 次 严重 的 程序 问题 导致 了 用 户 流失 。 又 过 了 一 个 
月 ， 由 于 投放 的 广告 发 挥 了 作用 ,用户 数量 再 次 增加 ， 而 后 这 些 新 的 用 
户 又 逐渐 流失 。 昌 然 用 户 数 在 短期 内 经 常 反复 地 上 下 波动 ， 但 从 按 月 统 
计 的 数据 来 看 ， 在 游戏 发 布 后 的 半年 时 间 里 ， 用 户 数 保持 了 上 升 的 势 
头 。 而 这 之 后 的 8 个 月 时 间 ， 游 戏 的 用 户 数 也 一 直 维 持 之 前 的 水 平 。 

然而 ， 从 这 个 月 开始 ， 用 户 数 开始 大 量 减 少 。 因 为 《 黑 猎 拼图 》 游 
戏 是 公司 具有 代表 性 的 成 功 应 用 ， 所 以 这 次 用 户 数 减少 的 问题 也 备 受 
关注 。 

广告 部 的 负责 人 表示 :“ 和 上 个 月 相 比 ， 商 业 推广 活动 无 论 是 从 内 容 
上 还 是 从 数量 上 来 看 都 没有 发 生变 化 。” 
游戏 企划 部 的 负责 人 也 表示 :“ 每 月 开展 的 游戏 活动 并 没有 什么 大 的 
差异 。” 
因此 ， 社 交游 戏 事 业 部 的 部 长 向 数据 分 析 部 门下 达 了 指示 :“ 调 查 清 
楚 用 户 数 量 减少 的 原因 ， 并 尽 全 力 改善 这 种 状况 。” 
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《 黑 猫 拼图 》 游 戏 的 用 户 数 比 较 ( 上 月 /本 月 ) 


一 般 说 来 ,无论 是 什么 课题 ， 数 据 分 析 的 负责 人 首先 需要 做 的 就 是 
明确 问题 现状 和 预期 。 本 例 中 同样 需要 首先 分 析 现 状 和 预期 。 
首先 ， 我们 面临 的 现状 是 “和 上 月 相 比 ， 本 月 的 用 户 数 减少 了 ”。 
在 本 例 中 ,我 们 的 目标 是 查 清 用 户 数 减少 的 原因 ， 并 确保 和 上 月 相同 的 
] 户 数 。 那 么 ， 下 一 步 要 做 的 就 是 通过 数据 分 析 查 清原 因 ， 并 明确 所 需 
要 解决 的 问题 。 

























































































预期 
恢复 到 与 上 
月 相同 的 用 
户 数 
现状 > 
同上 月 相 比 
用 户 数 减少 了 
第 4 章 的 现状 和 预期 
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发 现 问题 


同样 ， 在 第 4 章 中 ， 为 了 明确 现状 和 预期 之 间 差 距 的 结构 ， 我 们 需 
要 首先 思考 上 月 和 本 月 有 哪些 不 同 的 地 方 。 在 发 现 问题 的 阶段 ， 重 要 的 


是 从 大 而 广 的 视角 出 发 来 考虑 各 种 可 能 性 。 例 如 ， 我 们 可 以 尝试 做 出 如 
下 假设 。 
























































1. 商业 推广 上 存在 问题 ， 流 失 的 用 户 数 超过 了 新 增 的 用 户 数 

2. 每 月 不 同 主题 的 游戏 活动 开始 变 得 很 无 聊 ， 用 户 都 不 爱 玩 了 

3. 按 用 户 的 性 别 或 者 年 龄 段 等 属性 来 划分 用 户 群 ， 可 能 是 其 中 某 个 
用 户 群 出 现 了 问题 


做 出 上 述 假 设 后 ， 应 尽 可 能 地 在 短 时 间 内 大 致 验证 一 下 。 我 们 通过 
咨询 市 场 部 和 游戏 开发 部 ， 得 到 了 下 述 信息 。 








1. 同上 月 相 比 ， 商 业 推 广 的 力度 大 体 没 变 ， 新 增 用 户 数 也 大 致 保持 
在 相同 的 水 平 
2. 开展 的 各 种 游戏 活动 同上 月 相 比 几乎 没有 变化 








因此 ， 只 剩 下 第 3 条 假设 “可 能 是 其 中 某 个 用 户 群 出 现 了 问题 ” 没 
能 得 到 验证 了 。 也 就 是 说 ， 并 没有 发 现 现 有 问题 是 由 第 1 条 或 第 2 条 假 
设 造 成 的 。 再 进一步 深 挖 假设 的 内 容 ， 可 以 知道 用 户 群 通常 是 按照 性 
别 、 年 龄 段 等 来 划分 的 。 于 是 ， 首 先 我 们 可 以 考虑 是 否 有 某 个 属性 的 
户 群 数量 减少 了 ， 然 后 通过 和 上 月 的 数据 加 以 比较 ， 确 认 用 户 数量 减少 
了 的 用 户 属 性 ， 并 思考 如 何 恢复 用 户 数量 。 
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了 数据 的 收集 和 加 工 
































L 
探讨 分 析 所 需 的 数据 
在 确定 了 分 析 的 主题 后 ， 就 需要 探讨 一 下 分 析 所 需 的 数据 了 。 

















这 次 的 用 户 群 分 析 到 底 需 要 哪些 数据 呢 ? 本 案例 中 我 们 提出 的 假设 
如 下 所 示 。 


@ 和 上 月 相 比 ， 用 户 数量 减少 了 ( 事实 ) 
@ 某 个 用 户 群 出 现 了 问题 ( 假设 ) 


解决 方案 4 
e 针 对 用 户 数量 减少 了 的 用 户 群 采取 相应 的 措施 ， 使 用 户 数量 回 到 
和 上 月 相同 的 水 平 


基于 这 个 假设 ， 让 我 们 整理 一 下 分 析 的 过 程 。 








1.《 黑 猫 拼 图 》 游 戏 的 用 户 数量 相 比 上 月 减少 了 ( 事实 ) 
2. 某 些 用 户 群 的 用 户 数量 减少 了 ( 假设 ) 
3. 针对 该 用 户 群 制定 相应 的 措施 ， 使 用 户 数量 回 到 和 上 月 相同 的 

水 平 ( 解决 方案 ) 


为 了 完成 这 个 方案 ， 需 要 调查 一 下 《 黑 猫 拼图 》 游 戏 的 销售 额 构成 。 
在 上 一 章 中 ， 针 对 销售 额 减少 的 问题 ， 我 们 猜测 原因 可 能 是 商业 宣 
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传 活动 减少 了 ， 并 在 随后 的 数据 分 析 中 验证 了 上 述 猜测 是 否 正确 。 这 种 
分 析 方 式 称 为 “验证 型 数据 分 析 ”"。 而 在 本 章 中 ,我 们 只 知道 “存在 问 
题 ”， 却 无 法 轻易 找到 原因 。 也 就 是 说 ， 本 例 中 无 法 事先 猜测 问题 出 现 
的 原因 ， 而 是 需要 通过 数据 分 析 来 探索 原因 所 在 ， 这 种 方式 称 为 “探索 
型 数据 分 析 ”"。 从 其 他 行业 的 数据 分 析 师 口中 也 了 人 解 到 ， 不 管 什么 企业 ， 
对 “探索 型 数据 分 析 ” 和 “验证 型 数据 分 析 ” 的 需求 大 约 各 占 一 半 。 本 
章 将 主要 关注 占 二 分 之 一 的 “探索 型 数据 分 析 ”。 
为 了 能 够 通过 数据 明确 问题 我们 需要 下 面 的 数据 。 











@ DAU ( Daily Active User， 每 天 至 少 来 访 1 次 的 用 户 数 据 ) 
@ user_info( 用 户 属性 数据 ) 



































@@ DAU 
R 语言 中 的 标识 
访问 时 间 string ( 字符 串 ) log_data 
应 用 名 称 string ( 字符 串 ) app_name 
户 ID int ( 数值 ) user_id 



























































































































































数据 类 型 R 语言 中 的 标识 
次 使 期 string ( 字符 串 install_data 
应 用 名 称 string ( 字符 串 app_name 
1D int ( 数值 user_id 
性 别 ( 女性 、 男 性 ) string ( 字符 串 gender 
年 龄 段 ( 10、20、30、40、50 ) int ( 数值 generation 
设备 类 型 ( i0S、Android ) string ( 字符 串 device_type 











这 里 的 数据 基本 都 来 自 于 日 志 ， 即 使 没有 数据 分 析 的 需求 ， 每 天 也 
都 持续 积累 着 。 
总 之 我 们 已 经 确定 了 需要 分 析 哪 些 数据 ， 下 一 步 就 该 考虑 如 何 收集 
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这 些 数 据 了 。 本 次 的 情况 和 上 一 章 一 样 ， 所 有 数据 都 存在 服务 器 上 ， 只 
需 将 其 读 入 处 理 即 可 。 


-~ 
® DAU wee 


访问 时 间 应 用 名 称 
2013 年 8 月 























2013 年 8 
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2013 年 8 


























我 们 以 第 1 行 数 据 为 例 来 介绍 一 下 数据 的 内 容 。 该 行 数据 表示 
“2013 年 8 月 1 日 ID 为 33754 的 用 户 访问 了 《 黑 猫 拼图 》 游 戏 "。 每 天 
到 访 的 用 户 ID 都 收集 在 这 个 数据 中 。 


@@ User.info 


首次 使 用 日 期 应 用 名 称 ” 用 户 ID 性别 年 龄 段 ”设备 类 型 
iOS 
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Android 








2013 年 4 
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2013 年 4 Android 
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接 下 来 是 user.info 数据 。 这 个 数据 集 包 含 了 首次 使 用 日 期 、 应 用 名 
了 你、 用 户 ID 、 性 别 、 年 龄 段 、 所 使 用 的 手机 终端 类 型 这 些 用 户 属性 数 
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据 。 例 如 数据 的 第 1 行 表示 “在 2013 年 4 月 15 日 , ID 为 1、 年 龄 段 在 
40~49 岁 的 男性 用 户 使 用 iOS 手机 终端 首次 访问 了 《 黑 猎 拼图》 游戏 ”。 


数据 加 工 


在 像 本 例 这 样 探索 原因 的 数据 分 析 中 ， 大 多 是 将 某 个 状态 的 数据 
( 结果 数据 ) 和 用 户 的 属性 信息 (原因 数据 ) 合并 起 来 ， 从 而 得 知 哪些 








属性 (原因 ) 可 能 导致 哪 种 状态 (结果 )。 因 此 我 们 将 上 述 两 种 数据 合 























































































































并 起 来 。 
> R-CODE 
@ 把 DAU 数 据 和 user.info 数 据 合并 起 来 
用 局。 应 用 名 称 访问 时 间 : 年 龄 段 ”设备 类 型 
1 1 《 黑 猫 拼图 》| 2013/9/6 | 2013/4/15 | 男性 | 40~49 岁 iOS 
2 1 “|《 黑 猫 拼图 》| 2013/9/5 | 2013/4/15 | 男性 | 40~49 岁 | iOS 
3 1 “|《 黑 猫 拼图 》| 2013/9/28 | 2013/4/15 | 男性 | 40~49 岁 | ios 
4 1 “|《 黑 猫 拼图 》| 2013/9/12 | 2013/4/15 | 男性 | 40~49 岁 | ios 
29 | 1 “|( 黑 猫 拼图 》 2013/9/2 | 2013/4/15 | 男性 | 40~49 岁 | iOS 
30 | 10002 | ( 黑 猫 拼图 》| 2013/8/27 | 2013/5/22 | 女性 | 10~19 岁 | Android 
31 | 10002 |《 黑 猫 拼图 》 | 2013/8/25 | 2013/5/22 | 女性 | 10~19 岁 | Android 
32 | 10002 |《 黑 猫 拼图 》 | 2013/9/9 | 2013/5/22 | 女性 | 10~19 岁 | Android 
33 | 10003 |《 黑 猫 拼 图 》 | 2013/8/5 | 2013/5/22 | 女性 | 10~19 岁 | iOS 
34 | 10005 |《 黑 猫 拼图 》| 2013/8/11 | 2013/5/22 | 女性 | 10~19 岁 | Android 
35 | 10017 |《 黑 猫 拼 图 》| 2013/9/14 | 2013/5/22 | 女性 | 30~39 岁 | iOS 


















































这 里 我 们 在 user.info 的 属性 数据 中 追加 了 DATU 中 各 个 用 户 的 访问 
日 期 信息 。 这 样 一 来 ， 用 户 是 否 使 用 了 该 应 用 的 信息 和 用 户 自身 的 属性 
言 息 都 被 归纳 到 了 同一 个 数据 表 中 。 
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本 数据 分 析 











由 于 在 之 前 的 处 理 中 ,我 们 将 包含 用 户 访问 情况 的 DAU 数据 和 包 
含 用 户 属性 的 user.info 数据 进行 了 合并 ， 因 此 接 下 来 就 可 以 对 上 述 数 据 
进行 因果 关系 的 分 析 了 。 为 了 弄 清 楚 哪 种 属性 的 用 户 群 人 数 比 上 月 减少 
了 ， 我 们 对 数据 进行 交叉 列表 统计 ， 如 果 发 现 了 可 能 是 问题 原因 的 属 
性 ， 就 将 其 可 视 化 。 
进行 因果 关系 的 分 析 时 ， 有 具体 来 说 有 以 下 几 步 。 























1. 用 户 群 分 析 ( 对 每 个 用 户 群 进行 交叉 列表 统计 ) 
2. 将 已 明确 的 用 户 群 数据 可 视 化 





对 每 个 用 户 群 进行 交叉 列表 统计 ( 用 户 群 分 析 ) 


@ 用 户 群 分 析 ( 性 别 ) -全 














通过 上 表 就 可 以 看 出 性 别 的 影响 。 比 较 2013 年 8 月 和 9 月 男女 用 
户 的 数量 ， 可 以 看 出 虽然 整体 上 用 户 数量 在 下 降 ， 但 用 户 的 男女 构成 比 
例 大 体 没有 变化 。 由 此 可 以 判断 性 别 属性 对 用 户 数 量 下 降 的 影响 很 小 。 
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接着 我 们 考虑 年 龄 段 属 性 的 影响 ， 并 统计 出 各 个 年 龄 段 用 户 数 的 变 





化 情况 。 








R-CODE 
[= 
@ 用 户 群 分 析 ( 年 龄 段 ) 
年 龄 段 
访问 月 份 
10~19 岁 20~29 岁 30~39 岁 40-49 岁 50-~59 岁 
2013 年 8 月 18785 33671 28072 8828 4829 
2013 年 9 月 15391 27229 22226 7494 3835 





























通过 比较 2013 年 8 月 和 9 月 的 数据 ,我 们 可 以 看 到 无 论 是 哪个 年 
龄 段 ， 在 整体 用 户 数 量 中 所 占 的 比例 都 没有 发 生 大 的 变化 ， 也 没有 发 现 
哪个 年 龄 段 的 用 户 数 大 量 减少 了 。 这 里 我 们 需要 再 进一步 细 分 ， 看 看 是 
否 某 个 性 别 下 的 某 个 年 龄 段 的 用 户 数量 减少 了 。 也 就 是 说 ,将 性别 和 年 
龄 段 属性 组 合 起 来 进行 交叉 列表 统计 。 像 这 样 将 交叉 列表 统计 的 分 析 轴 
组 合 起 来 的 方法 称 为 n 重 交叉 列表 统计 。 这 里 我 们 将 性 别 和 年 龄 段 组 合 
起 来 ， 形 成 2 重 交 义 列 表 统计 。 


R-CODE 
> 
@ 用 户 群 分 析 ( 性 别 x 年 龄 段 ) 


女性 男性 








访问 


月 份 10~19 20~29 30~39 40~49 50~59 10~19 20~29 30~39 40~49 50~59 


Du om UD 


岁 岁 岁 岁 岁 





年 8 | 9091 | 17181 |14217| 4597 | 2257 | 9694 |16490|113855 | 4231 | 2572 








年 9 | 7316 | 13616 | 11458 | 3856 | 1781 | 8075 | 13613 | 10768 | 3638 | 2054 


通过 将 性 别 和 年 龄 段 进 行 交 叉 组 合 ， 形 成 了 20~29 岁 女性 、30~39 
岁 女 性 等 新 的 分 析 轴 。 通 过 观察 统计 数据 ， 我 们 发 现 各 个 用 户 群 的 用 户 
数量 整体 都 下 降 了 ,但 每 个 用 户 群 所 占 的 比例 大 体 没 变 ， 也 没有 发 现 哪 
个 用 户 群 的 数量 急剧 下 降 。 

下 面 我 们 需要 考虑 的 是 用 户 所 使 用 的 设备 的 差异 。 
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@ 用 户 群 分 析 ( 设备 ) i 
> 04-06 
访问 月 份 
plalo [te)le| 
2013 年 8 46974 47211 
2013 年 9 29647 46528 






































结果 是 使 用 iOS 设备 的 用 户 数 略 有 下 降 ， 而 使 用 Android 的 用 户 却 
大 量 减少 了 ， 因 此 这 个 用 户 群 的 分 析 很 可 能 就 是 解决 该 问题 的 关键 。 

为 了 更 详细 地 看 到 上 述 数 值 的 差异 ， 我 们 可 以 生成 以 天 为 单位 的 时 
间 序 列 图 ， 据 此 来 确认 用 户 数 的 变化 程度 。 


COLUMN 


交叉 列表 统计 


: 交叉 列表 统计 是 将 有 因果 关系 的 二 者 组 合 起 来 进行 统计 分 析 的 方 | 
| 法 。 比 如 考虑 “30~39 岁 的 女性 用 户 和 20~29 岁 的 男性 用 户 的 行为 有 
| 何 差异 ”等 ， 像 这 样 对 两 种 用 户 属性 和 行为 结果 之 间 关 系 进行 统计 ,我 ; 
| 们 称 为 2 重 交 叉 列表 统计 。2 重 交叉 列表 统计 在 大 多 数 工作 中 经 常会 用 
| 到 。 以 此 类 推 ， 对 由 两 类 以 上 的 用 户 属性 组 合 起 来 形成 的 复合 属性 的 因 |; 
| 果 关 系 进行 分 析 ， 就 称 为 多 重 ( n 重 ) 交叉 列表 统计 。 
: “为 了 通过 数据 分 析 得 到 想 要 的 结果 ， 找 出 哪些 用 户 属性 对 期 望 的 用 
| 户 行为 ( 比如 “购买 " ) 影响 最 大 ， 或 者 哪些 用 户 属性 的 影响 较 小 才 是 
最 为 重要 的 。 要 想 找 出 这 些 属性 ， 首 先 需 要 和 业务 负责 人 讨论 。 然 后 ， 
: 通过 数值 比较 快速 确认 对 “期 望 的 用 户 行为 " =“ 结果” 有 较 大 影响 的 
: “用 户 属性 "= “原因 ”( 比如 性 别 、 年 龄 等 )。 在 这 一 点 上 ， 交 叉 列表 统 | 
| 计 是 一 种 非常 有 效 的 方法 。 如 果 我 们 能 够 找 出 对 结果 有 较 大 影响 的 属性 | 
| 组 合 ， 那 么 就 可 以 采取 行动 ， 将 其 列 为 重点 经 营 的 地 方 。 
;由 上 可 知 ， 交 叉 列 表 统计 在 商业 中 有 着 广泛 的 用 途 。 不 单 是 数据 分 : 
: 析 人 员 ， 其 他 职务 的 员工 也 经 常 使 用 。 当 需要 对 收集 的 数据 加 以 解读 | 
|” 时， 首先 为 了 对 数据 整体 有 一 个 初步 的 了 解 ， 通 常会 对 数据 进行 单纯 的 
| 统计， 或 者 作出 柱状 图 。 如 果 是 需要 分 析 数据 的 变化 趋势 或 者 像 上 面 那 ， 
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| 样 通过 复合 属性 来 发 掘 因果 关系 ， 那 么 仅 对 数据 的 属性 分 别 进行 交叉 列 
表 统 计 ， 就 可 以 得 到 十 分 有 用 的 结论 。 
| ”交叉 列表 统计 可 以 使 用 Excel 的 数据 透视 表 功 能 来 实现 ， 但 是 当 需 | 
， 要 生成 大 量 的 交叉 统计 表 或 者 多 重 的 交叉 统计 表 时 ， 使 用 Excel 会 非常 
， 麻烦 。 当 需要 知道 所 有 属性 和 结果 的 因果 关系 时 ， 用 Excel 去 处 理会 耗 | 
| 费 大 量 的 时 间 ， 因 此 这 种 情况 下 就 会 经 常 使 用 应 用 性 较 强 的 R 语言 。 


R-CODE 
-® 
2,000- = 人 


































































































1,500 
device_type 
忆 © Android 
© 1,000- 生 iOS 
500- 
0- 
' 1 ' 1 
801 815 9 15 10 01 


901 
log_date 


不 同类 型 设备 的 用 户 数 变迁 





为 了 确定 每 种 设备 用 户 数 在 时 间 序 列 上 的 变化 情况 ,我们 利用 时 间 
序列 图 将 数据 可 视 化 ， 并 得 出 了 显而易见 的 结论 。 上 图 的 横 轴 表示 访问 
日 期 ， 纵 轴 表 示 访 问 次 数 ， 两 条 曲线 分 别 表示 iOS 和 Android 设备 的 访 
问 次 数 随时 间 的 变化 情况 。 

可 以 看 出 ，iOS 的 用 户 数 和 之 前 大 体 相 同 ， 而 Android 的 用 户 数 从 
9 月 的 第 2 周 开始 急剧 减少 。 
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解决 对 策 


昌 说 本 例 是 一 种 探索 型 数据 分 析 ， 但 在 这 种 情况 下 ， 经 常 回顾 事先 
提出 的 假设 ,确认 数据 分 析 的 出 发 点 ， 对 提升 工作 效率 也 依然 非常 重 
要 。 在 数据 分 析 中 ， 如 果 对 数据 进行 深度 考察 ， 往 往 会 没有 止境 ， 导 致 
在 不 必要 的 分 析 上 花费 很 多 时 间 。 为 了 防止 这 种 情况 的 发 生 ， 重 要 的 是 
在 数据 分 析 之 前 建立 假设 ， 并 每 次 参照 这 个 假设 进行 分 析 ， 那么 我 们 再 
来 看 看 本 例 中 事先 建立 的 假设 。 






























































1.《 黑 猫 拼 图 》 游 戏 的 用 户 数量 相 比 上 月 减少 了 (事实 ) 
2. 某 些 用 户 群 的 用 户 数 量 减 少 了 ( 假设 ) 
3. 针对 该 用 户 群 制定 相应 的 措施 ， 使 用 户 数量 回 到 和 上 月 相同 的 

水 平 ( 解决 方案 ) 


根据 上 述 假设 ,我 们 将 之 前 数据 分 析 的 结果 总 结 如 下 。 





1.《 黑 猫 拼图 》 游 戏 的 用 户 数 量 相 比 上 月 减少 了 ( 事实 ) 
2. 使 用 Android 手机 的 用 户 群 数量 显著 减少 了 ( 事实 ) 
3. 弄 清 楚 Android 手机 端的 问题 ， 并 制定 相应 的 改善 策略 ， 使 用 户 

数量 回 到 和 上 月 相同 的 水 平 ( 确信 度 较 高 的 解决 方案 ) 

















根据 分 析 的 结果 ， 和 游戏 开发 部 门 确认 后 ， 得 知 9 月 12 日 Android 
版 应 用 进行 了 一 次 版 本 升级 。 给 他 们 看 了 数据 后 ， 被 告知 已 确认 某 些 机 
型 在 测试 中 没有 问题 ， 但 是 不 能 确定 旧 的 机 型 是 否 也 能 够 通过 测试 。 于 
是 ,我们 将 用 户 数 减少 的 机 型 数据 导出 ， 并 再 度 咨询 他 们 的 意见 ， 发 现 
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这 些 机 型 的 共同 点 是 都 安装 了 旧版 本 的 Android 系统 。 当 这 些 机 型 中 
的 应 用 升级 后 ， 用 户 就 无 法 登录 游戏 了 。 于 是 ， 公 司 紧 急 修 复 了 这 个 
版 本 的 系统 。 

我 们 将 整 件 事情 向 社交 游戏 事业 本 部 的 部 长 做 了 汇报 ， 部 长 高 兴 地 
我 们 的 工作 表示 了 感谢 :“ 你 们 利用 数据 找 出 了 问题 的 原因 ， 还 给 出 了 
具体 的 解决 方案 ， 真 是 非常 感谢 啊 。 

















> 
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本 章 我 们 利用 交叉 列表 统计 进行 了 用 户 群 的 分 析 。 

我 们 抓 位 和 上 月 相 比 用 户 数 减少 了 这 样 一 个 问题 ， 探 究 了 这 个 问题 
的 原因 。 同 上 一 章 一 样 ， 在 进行 数据 分 析 之 前 ， 尽 可 能 地 听取 了 相关 部 
门 的 意见 ， 并 掌握 了 一 定 的 事实 依据 。 但 即便 如 此 ， 也 会 有 无 法 找 出 问 
题 原因 的 情况 。 
在 本 章 的 示例 中 ， 出 现 了 不 好 的 现象 却 无 法 找 出 原因 ， 需 要 我 们 找 
出 到 底 是 哪里 出 了 问题 ， 这 就 是 探索 型 数据 分 析 。 在 验证 过 程 中 会 伴随 
很 多 次 失败 的 尝试 ， 因 此 需要 根据 最 初 的 假设 ， 进 一 步 深 挖 数 据 ， 不 断 
探究 问题 的 原因 所 在 ， 这 才 是 最 重要 的 。 

另外 ， 数 据 分 析 的 委托 方 最 好 能 够 和 数据 分 析 师 分 享 问题 可 能 的 原 
因 ， 这 样 能 够 提高 数据 分 析 的 效率 ， 有 助 于 早日 解决 问题 。 






























































分 析 流 程 第 4 章 中 数据 分 析 的 成 本 
现状 和 预期 氏 
发 现 问题 中 
数据 的 收集 和 加 工 氏 
数据 分 析 高 
解决 对 策 氏 
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详细 的 愉 代 三 


























读 入 CSV 文件 


# 读 入 CSV 文 件 004-014 


dau <- read.csv("section4-dau.csv", header = T, stringsAsFactors = F) 
head (dau) 

wer imtoo ea eet on se rt ons heladen 汪汪 
stringsAsFactors = F) 

head (user .info) 


利用 read.csv 函数 将 下 面 的 第 一 段 数据 读 和 人 到 aau 数据 存储 空间 
里 ， 这 样 每 天 访问 该 应 用 的 用 户 ID 就 全 部 读 人 了 。 

然后 是 user .info。 这 里 包含 了 各 个 用 户 的 属性 数据 ， 其 中 包括 首 
次 使 用 日 期 、 应 用 名 称 、 用 户 ID、 性 别 、 年 龄 段 、 使 用 的 移动 终端 类 
型 。 例 如 ， 第 1 行 的 数据 表示 在 2013 年 4 月 15 日 首次 使 用 game-01 应 
用 的 用 户 ID 是 1， 该 用 户 是 一 名 男性 用 户 ， 年 龄 在 40~49 岁 ， 使 用 的 
是 iOS 的 移动 终端 。 
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| ### log date app name user id | 
i 村 全 在 2013 年 8 月 1 日 ,ID 为 33754 的 | 
i 禁 2 2013-08-01 game-01 28598 用 户 使 用 了 game-01 : 
i 插 3 2013-08-01 game-01 30306 
i 插 4 2013-08-01 game-01 117 
i 插 5 2013-08-01 game-01 6605 
i 拼 6 2013-08-01 game-01 346 : 


## install date app name user id gender generation device type 


振 F 2013-04-15 game-01 1 1 40 i085 | 局 用 户 ID 为 


i 振 2 2013-04-15 game-01 2 M 10 Android ee : 
| #3 2013-04-15 game-01 3 F 40 i08 岁 、 使 用 : 
1 样 4 2013-04-15 game-01 4 M 10 Android iOS 的 男 ! 
; 振 5 2013-04-15 game-01 5 M 40 i08 性 使 用 了 ! 
i 振 6 2013-04-15 game-01 6 M 40 i08 game-01 | 


合并 DAU 和 user.info 的 数据 





R-CODE 
# 将 DAU 数 据 和 user .info 数 据 合并 e402 
qaueusern mion. mergelclau en uusee 


name")) 
head (dau.user .info) 














| 0g date install date gender generation device type : 
: 1 3-09-06 2013-04-15 40 ios | 
: 1 3-09-05 2013-04-15 M 40 ios | 
| 1 3-09-28 2013-04-15 M 40 ios | 
: 1 3-09-12 2013-04-15 M 40 ios | 
: 1 3-09-11 2013-04-15 M 40 ios | 
| 1 3-09-08 2013-04-15 M 40 ios | 
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这 样 就 在 user .info 的 用 户 属性 信息 里 增加 了 DAU 中 关于 用 户 访 
问 日 期 的 信息 。 由 于 用 户 是 否 使 用 了 该 应 用 的 信息 和 用 户 自身 的 属性 信 
息 已 经 被 归纳 到 同一 个 数据 集 里 ， 因 此 下 面 就 可 以 进行 数据 分 析 了 。 


用 户 群 分 析 ( 按 性 别 统计 ) 
# 增加 一 列表 示 月 份 


daueuser nto lomonthe< SUbstrtaqauUsusenmnfoliooaaEe 7 
Cable (daus vsersrniolpe (loogmmoneh engdenr 























首先 使 用 substr 函数 从 按 日 统计 的 数据 1og_date 中 提取 出 年 份 
和 月 份 的 信息 。 在 进行 交叉 列表 统计 时 ， 需 要 用 到 table 这 个 函数 。 

输入 table (AAA[,c ("XX", "YY")])， 将 AAA 数据 的 属性 XX 和 YY 
进行 交叉 列表 统计 并 输出 。 

交叉 列表 统计 就 是 计算 各 个 属性 下 有 多 少 样本 数 ， 是 数据 分 析 中 最 
初级 的 一 种 分 析 。 











提 # gender 
## log month F M 
## 2013-08 47343 46842 
## 2013-09 38027 38148 


通过 上 述 内 容 可 以 看 出 性 别 这 一 用 户 群 的 影响 。 通 过 比较 2013 年 8 
月 和 9 月 男女 用 户 的 数量 ， 可 以 看 出 两 个 用 户 群 的 数量 都 下 降 了 ， 但 各 
自 的 构成 比例 却 大 体 上 没有 发 生变 化 ， 所 以 性 别 这 个 属性 对 现在 的 问题 
影响 不 大 。 
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用 户 群 分 析 ( 按 年 龄 段 统计 ) 





04-04 
Eableldauuses Smee Coommonteh enerat ny 


间 ## generation 

## log month 10 20 30 40 50 
## 2013-08 18785 33671 28072 8828 4829 
## 2013=09 15391 .27229 22226 7494 3835 


这 里 也 是 比较 上 下 两 行 的 数值 ， 可 以 看 出 在 8 月 和 9 月 ， 无论 哪 个 
年 龄 段 的 用 户 ， 所 占 总 用 户 的 比例 大 体 上 都 没有 变化 ， 没 有 发 现 哪个 年 
龄 段 的 用 户 数 大 量 减少 了 


用 户 群 分 析 ( 按 性 别 x 年 龄 段 统计 ) 
library (reshape2) 


dcast (dau.user.info, log month ~ gender + generation, value.var = 
userglo leneen 











要 想 进行 n 重 交 又 列表 统计 ， 需 要 使 用 reshape2 库 。reshape2 
库 提供 了 各 种 数据 前 期 处 理 所 需 的 工具 ， 深 受 数 据 分 析 师 喜爱 。 这 里 我 
们 使 用 的 就 是 这 个 库 中 的 dcast 子 数 。 

输入 dcast (AAA, XX~YY+2Z2,Value.var="CCC",1length) ， 对 数据 
AAA 中 的 Xx ( 纵 轴 ) 和 YYxzz( 横 轴 ) 进行 交叉 列表 统计 。 后 面 的 
value .var="CCC",1length 表示 这 个 交叉 列表 中 的 数值 为 相应 的 ccc 
的 个 数 。 
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## log month PR 10 F 20 F300F 40F50M10 M20 M30M40M S50 
## 1 2013-08 9091 17181 14217 4597 2257 9694 16490 13855 4231 2572 
## 2 2013-09 7316 13616 11458 3856 1781 8075 13613 10768 3638 2054 


通过 观察 上 述 结果 可 以 看 到 ， 上 面 的 分 析 是 以 性 别 和 年 龄 段 的 交叉 
性 作为 分 析 轴 的 。 通 过 “gender + generation” 这 样 的 方式 来 指定 性 别 
和 年 龄 段 的 结合 ， 将 这 两 种 属性 通过 “_ ”连接 起 来 ， 并 生成 了 分 析 轴 。 

通过 观察 统计 的 数据 ， 可 以 看 出 这 里 每 个 用 户 群 的 用 户 数量 都 减 
少 了 ,所 占 的 比例 也 大 体 没 有 变 ， 并 没有 发 现 哪 个 用 户 群 的 人 数 大 量 减 
少 了 5 


























再 























用 户 群 分 析 ( 按 设备 统计 ) 


最 后 我 们 来 分 析 用 户 使 用 的 移动 终端 ， 对 设备 的 类 型 进行 交叉 列表 
统计 。 


## device type 
## log month Android i0s 


## 2013-08 46974 47211 


之 相 比 iOS 用 户 , 9 月 份 Android 用 户 的 
We “5328 数量 比 8 月 急剧 减少 


结果 我 们 发 现 , 9 月 的 10S 用 户 数 相 比 8 月 下 降幅 度 很 小 ， 然 而 
Android 用 户 数 却 极 大 地 减少 了 ， 因 此 问题 很 可 能 就 出 自 这 个 用 户 群 了 。 
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用 户 群 分 析 结 果 的 可 视 化 





R-CODE 
# 按照 日 期 和 设备 类 型 计算 用 户 数 e407 
dau.user.info.device.summary <- ddply(dau.user.info, .(log date, 


qevice Eype) sumnmarize dau length(useraid)) 


# 变换 日 期 类 型 
dau.user.info.device.summary$log date 
<- as.Date(dau.user.info.device.summary$1l0og date) 








到 


# 画 出 时 间 序 列 趋 势 
library (ggplot2 
library (scales) 











limits <- c(0, max(dau.user.info.device.summary$dau)) 
ggplot (dau.user.info.device.summary, aes (x=1l0g date, y=dau, 
col=device type, lty=device type, shape=device type)) + 

geom line (lwd=1) + 

geom point (size=4) + 

scale y_ continuous (label=comma, limits=limits) 


2,000- 






1,500- 






人 
刘 
device_type 
®-Android 
二 iOS 


入 


au 


© 1000- 


500 - 


801 815 901 915 1001 
log_date 


从 上 图 可 以 看 出 ， 之 前 10S 和 Android 的 用 户 数 大 体 相 当 ， 但 是 从 
9 月 的 第 2 周 开始 ，Android 用 户 数 急剧 减少 。 
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第 5 章 

索 例 人 @ 一 A/B 测试 

哪 种 广告 的 效果 更 好 
广告 的 A/B 测 试 
某 个 促销 活动 每 月 都 会 开展 一 次 ， 但 和 公司 内 其 他 类 似 的 促 
























































销 活动 相 比 ， 该 促销 活动 的 用 户 购买 率 比 较 低 。 通 过 调查 
户 购 买 率 低 的 原因 ， 发 现 问题 可 能 出 在 促销 活动 的 广告 上 。 
于 是 我 们 准备 了 两 种 不 同 的 广告 ， 来 验证 哪 种 广告 能 够 带 来 
户 购 买 率 ， 那 么 我 们 应 该 如 何 来 比较 呢 ? 











































































































更 高 的 
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本 现状 和 预期 




















促销 活动 的 购买 率 低 

在 《 黑 猫 拼图 》 游 戏 中 ， 公 司 每 月 都 会 开展 游戏 装备 的 促销 活动 。 
虽然 这 种 促销 活动 是 一 种 销售 比率 很 高 的 重要 经 营 策略 ， 然 而 公司 的 经 
营 层 却 指出 “虽然 促销 活动 的 销售 人 额 较 高 ， 但 购买 率 却 比较 低 ”"。 实 际 
上 ,通过 和 其 他 应 用 的 促销 活动 相 比 较 ， 我 们 发 现 《 黑 猫 拼图 》 游 戏 的 
促销 活动 的 购买 率 确实 偏 低 。 

因此 ， 我 们 希望 能 够 通过 数据 分 析 找 出 购买 率 偏 低 的 原因 ， 改 童 
种 状况 。 

促销 活动 广告 的 点 击 率 比较 (《 黑 猫 拼图 》/ 公司 其 他 应 用 ) 
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应 用 名 称 购买 率 
《 黑 猫 拼图 》 6% 
必用 A 12% 
心 用 B 12% 






































整理 现状 和 预期 


首先 ， 我们 来 整理 一 下 问题 的 现状 和 预期 。 目 前 的 现状 是 ， 和 其 他 
应 用 的 促销 活动 相 比 ,《 黑 猫 拼图 》 的 游戏 装备 促销 活动 的 购买 率 偏 低 。 
针对 这 个 问题 ,我 们 的 预期 是 弄 清楚 购买 率 偏 低 的 原因 ， 并 确保 和 其 他 
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应 用 的 促销 活动 有 相同 的 购买 率 。 


预期 






希望 能 够 提升 
到 和 其 他 应 用 
日 同 的 购买 率 

















现状 老 陀 


和 其 他 应 
相 比 购买 率 



































第 5 章 中 的 现状 和 预期 
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发 现 问题 




















和 其 他 应 用 有 何不 同 


首先 ， 为 了 明确 现状 和 预期 之 间 的 差距 ， 我 们 需要 从 大 的 视角 出 发 
来 思考 《 黑 猫 拼图 》 游 戏 和 其 他 应 用 有 何不 同 ， 并 尝试 做 出 假设 。 





1. 游戏 装备 促销 活动 的 内 容 有 问题 

> 销售 的 游戏 装备 并 不 是 用 户 需 要 的 

> 促销 打折 的 力度 不 够 ， 对 用 户 没 有 太 大 吸引 力 
2. 广告 的 外 观 展示 有 问题 


总 之 我 们 先 做 出 上 述 两 种 假设 。 首 先 针对 第 1 个 假设 ， 我 们 咨询 了 
《 黑 猫 拼图 》 游 戏 的 策划 部 门 ， 并 从 那里 得 到 了 如 下 反馈 。 


@ 游戏 装备 促销 活动 中 出 售 的 游戏 装备 或 许 能 够 用 得 上 
@ 和 其 他 应 用 一 样 ， 促 销 时 的 游戏 装备 打 五 折 ， 这 从 用 户 的 立场 来 
看 是 很 划算 的 


之 后 ,我们 统计 了 在 促销 期 间 出 售 的 游戏 装备 的 使 用 情况 ， 发 现 这 
些 装 备 是 当时 最 常 被 使 用 的 装备 ， 用 户 对 这 些 装备 是 有 需求 的 。 也 就 是 
说 ， 上 述 第 1 个 假设 中 的 问题 基本 不 大 。 

我 们 再 来 考虑 第 2 个 假设 。 为 了 获得 和 第 2 个 假设 相关 的 信息 ,我 
们 咨询 了 负责 《 黑 猫 拼 图 》 游 戏 市 场 营销 的 部 门 ， 并 从 那里 得 到 了 如 下 


反馈 。 
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@ 游戏 装备 大 促销 的 广告 都 是 由 各 个 应 用 的 设计 师 负责 的 ， 所 以 广 
告 的 质量 也 是 参差 不 齐 
e@《 黑 猫 拼图 》 游 戏 的 广告 的 点 击 率 一 直 比 较 低 ( 参考 下 表 ) 


这 次 的 问题 铠 怕 就 是 第 2 个 假设 造成 的 。 因 此 ， 这 次 我 们 将 提升 广 
告 的 点 击 率 作为 课题 来 进行 数据 分 析 。 





促销 活动 广告 的 点 击 率 比较 (《 黑 猫 拼图 》/ 公司 其 他 应 用 ) 
应 用 名 称 
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数据 的 收集 和 加 工 




















探讨 验证 方法 
我 们 来 总 结 一 下 本 案例 的 问题 和 解决 方案 。 


@《 黑 猫 拼 图 》 游 戏 的 广告 点 击 率 比 其 他 应 用 低 ( 事实 ) 
@《 黑 猫 拼 图 》 游 戏 的 广告 设计 有 问题 ( 假设 ) 
@ 用 点 击 率 高 的 广告 替换 目前 所 使 用 的 广告 ( 解决 方案 ) 





为 了 完成 上 述 方案 ,需要 找到 哪 种 广告 更 容易 被 点 击 。 但 是 ,在 
《 黑 猎 拼图》 游戏 中 ， 之 前 每 月 开展 的 “游戏 装备 大 促销 ”活动 的 广告 
一 直 都 没有 变更 过 ， 因 此 我 们 缺少 可 供 分 析 的 数据 。 

于 是 ， 我 们 准备 了 两 个 不 同 的 广告 ， 通 过 收集 数据 来 比较 哪个 广告 
更 容易 被 用 户 点 击 。 























国 如果 采用 前 后 比较 的 方法 ， 则 无 法 排除 外 部 因素 的 干扰 

如 果 要 比较 两 个 广告 哪个 更 好 ， 该 怎么 做 呢 ? 首先 想到 的 是 前 后 比 
较 的 方法 。 如 下 图 所 示 ， 在 前 一 段 时 间 内 投放 广告 A， 在 后 一 段 时 间 内 
投放 广告 B， 并 比较 前 后 两 个 时 间 段 广告 投放 的 效果 。 
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前 后 比较 前 后 比较 
提升 了 O% 
B 一 一 
买 
率 | A 一 一 一 一 





时 间 时 间 
广告 的 前 后 比较 





在 这 种 情况 下 ,广告 A 和 广告 B 的 比较 如 右 图 所 示 ， 其 思路 是 “如 
果 继 续 投 放 广 告 A， 购 买 率 应 该 是 这 样 "， 然 后 拿 这 个 值 和 广告 B 的 值 
进行 比较 。 

然而 ， 这 种 做 法 真是 正确 的 吗 ? 

比如 ， 在 投放 广告 A 和 广告 B 的 时 间 里 : 











@ 投放 广告 B 的 时 候 是 购买 率 比 较 容易 提升 的 时 候 

@ 投 放 广 告 B 的 时 候 ， 某 个 宣传 活动 获得 了 巨大 成 功 

@ 投 放 广 告 B 的 时 候 ， 在 TVCM 的 放映 或 者 电视 节目 中 介绍 了 
《 黑 猫 拼图 》 游 戏 

@ 投 放 广 告 A 的 时 候 …… 




















如 上 所 示 ， 本 来 我 们 只 是 希望 比较 广告 A 和 广告 B 这 二 者 的 效果 ， 
然而 中 间 却 出 现 了 各 种 外 部 因素 的 干扰 。 如 有 果 是 外 部 因素 导致 的 购买 率 
提升 ， 那 么 就 有 可 能 像 下 图 一 样 ， 即 使 继续 投放 广告 A， 购 买 率 也 会 提 
升 。 这 样 的 话 就 很 难 知 道 前 后 购买 率 差异 的 原因 到 底 是 什么 了 。 
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即使 继续 投放 广告 A， 购 买 率 也 能 提升 ? 





时 间 


国 采 用 A/B 测 试 的 方法 排除 外 部 因素 干扰 

针对 这 种 情况 ， 一 种 便利 的 验证 方法 是 A/B 测试 。A/B 测试 能 够 
在 多 个 选项 中 找 出 那个 能 够 带 来 最 佳 结果 的 选项 。 例 如 ， 如 下 图 所 示 ， 
我 们 只 要 同时 投放 广告 A 和 广告 B， 就 可 以 排除 之 前 所 说 的 外 部 因素 的 
干扰 。 























前 后 比较 A/B 测 试 


BO 
这 六 


貌似 B 会 
更 好 些 











时 间 时 间 
前 后 比较 和 A/B 测试 的 不 同 








A/B 测试 虽然 在 引入 时 需要 较 高 的 开发 成 本 ,但 是 实施 成 本 却 相对 
较 低 ， 而 且 也 方便 收集 统计 数据 ， 因 而 在 互联 网 业界 被 广泛 使 用 ， 此 外 
在 部 分 广告 业 和 制造 业 中 也 会 被 采用 。 例 如 ， 某 个 三 家 生产 了 A 和 B 
两 种 产品 并 同时 出 售 ， 通 过 收集 销售 数据 来 验证 哪个 产品 更 容易 被 目标 
用 户 群 体 接受 。 虽 然 在 这 种 情况 下 进行 A/B 测试 的 成 本 较 高 ， 但 由 于 能 
够 针对 同一 时 期 的 同一 目标 用 户 群 体 进行 因果 关系 分 析 ， 因 此 有 着 广泛 
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的 应 用 。 





国 A/B 测 试 中 的 用 户 分 组 必须 遵循 随机 的 原则 

在 进行 A/B 测试 时 ， 首 先 需 要 将 用 户 分 到 A 组 或 B 组 中 ， 然 后 给 
A 组 的 用 户 投放 广告 A, 给 B 组 的 用 户 投放 广告 B， 再 比较 两 组 用 户 
的 购买 率 。 其 中 需要 注意 的 是 如 何 进行 分 组 ， 比 如 按照 如 下 方法 来 分 组 
如 何 ? 


























@A 组 : 男性 
@B 组 : 女性 


按照 这 样 的 分 法 ， 或 许可 以 排除 诸如 时 间 因 素 、 游 戏 内 的 各 种 活 
动 、TVCM 等 的 影响 ， 但 是 男性 用 户 和 女性 用 户 本 吴 在 游戏 中 的 消费 倾 
向 就 有 可 能 存在 差异 。 另 外 ， 昌 说 可 以 排除 TVCM 的 影响 ,但 是 由 于 
男女 用 户 在 观看 电视 节目 的 时 间 和 喜好 等 方面 存在 差异 ， 因 此 这 些 都 有 
可 能 对 最 终 的 结果 产生 影响 。 

总 之 ,需要 保证 分 组 后 的 两 组 不 能 有 类 似 于 “男女 ”这 种 条 件 性 的 
差异 。 进 行 A/B 测试 最 初 的 目的 就 是 要 排除 广告 以 外 的 因素 的 影响 , 单 
纯 比 较 广 告 内 容 方面 的 差异 。 

要 想 避 免 条 件 性 的 差异 ， 最 简单 的 一 种 分 组 方法 就 是 把 用 户 ID 对 
某 个 数 进行 取 模 运算 。 如 果 使 用 这 种 方法 ， 那 么 下 列 条 件 就 都 能 够 均匀 
地 散布 在 两 个 组 中 。 



















































































e@ 性 别 
e@ 年 龄 段 
@ 应 用 安装 时 间 


国 同 时 进行 多 个 A/B 测 试 时 的 陷阱 

A/B 测试 是 将 测试 对 象 随机 分 为 A、B 两 组 ， 然 后 比较 两 组 之 间 差 
异 的 验证 方法 ， 但 是 有 的 企业 会 在 同一 时 间 开展 多 个 A/B 测试 。 在 这 种 
情况 下 ， 就 算 这 些 A/B 测试 各 自 使 用 了 上 述 方法 来 对 用 户 进行 分 组 ， 彼 
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此 之 间 仍 有 可 能 相互 干扰 。 下 面 我 们 来 举 几 个 测试 失败 的 案例 。 


QD 所 有 的 A/B 测试 都 采用 相同 的 分 组 方法 
@) 各 组 中 参与 其 他 测试 的 用 户 比 例 不 同 


QD 例 中 ， 因 为 所 有 测试 使 用 的 都 是 相同 的 分 组 方法 ， 所 以 就 算 两 组 
的 表现 有 差异 ， 也 不 可 能 知道 这 种 差异 到 底 是 由 哪个 测试 引起 的 。 而 在 
@) 例 中 ， 虽 说 是 随机 分 组 的 ， 但 实际 上 各 组 中 参与 其 他 测试 的 用 户 比 例 
互 不 相同 ， 此 时 也 会 出 现 测 试 项 目 以 外 的 条 件 性 差异 。 在 这 种 情况 下 ， 
我 们 需要 事先 考虑 分 组 时 如 何 才能 不 包含 已 参与 其 他 测试 的 用 户 ， 这 样 
测试 结果 才 可 信 。 然 而 ， 受 到 其 他 测试 的 分 组 方法 的 影响 ， 这 样 做 可 能 
也 会 遇 到 困难 。 例 如 ， 如 果 通 过 对 某 个 数值 取 模 看 余数 是 否 为 1 来 划分 
用 户 ， 那 么 我 们 很 容易 找到 不 在 该 用 户 组 里 的 其 他 用 户 。 然 而 ， 如 果 是 
通过 指定 取 值 范围 而 得 到 的 用 户 组 ， 比 如 说 对 某 个 值 取 模 余数 为 1~5 的 
用 户 ， 则 很 难得 到 不 与 这 个 用 户 组 发 生 重 车 的 分 组 。 

在 这 种 情况 下 ， 就 需要 错开 各 个 测试 的 实施 时 间 ， 或 者 事先 比较 A 组 
和 B 组 的 KPI (Key Performance Indicator， 关 键 绩效 指标 ) 的 变化 ， 确 
认 没 有 差异 后 再 测试 。 在 社交 游戏 中 ， 一 般 的 KPI 有 PV (访问 次 数 )、 
DAU ( 每 日 活跃 用 户 数 )、ARPU ( 人 均 消费 金额 )、 持 续 率 、 付 费 率 等 。 











































































































国 利 用 统计 学 上 的 假设 检验 来 过 滤 
不 光 是 在 A/B 测试 中 ， 平 时 当 我 们 需要 判断 两 组 之 间 是 否 存 在 差异 
时 ， 都 可 以 用 到 统计 学 上 的 “假设 检验 ”。 


@ 即 使 考虑 到 用 户 数 ( 样本 数 ) 较 少 导致 的 偏差 ， 也 依然 可 以 说 两 
组 间 存 在 差异 吗 








要 确认 这 一 点 ， 这 就 需要 用 到 假设 检验 的 方法 。 在 用 户 数 (样本 
数 ) 较 多 的 情况 下 ， 大 多 数 的 结果 都 是 “存在 显著 性 差异 ”。 

那么 ,“ 用 户 数 较 少 导致 的 偏差 ” 指 的 是 什么 呢 ?” 比 如 ， 两 组 都 只 
有 5 人 ， 本 来 两 组 间 不 存在 购买 率 的 差异 ， 但 现在 其 中 一 组 的 某 个 用 户 
偶然 做 出 了 下 述 行为 : 
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@ 平常 从 来 不 买 ， 但 这 次 却 偶然 买 了 
@ 平常 经 常 购买 ， 但 这 次 却 偶然 没有 购买 








那么 该 用 户 的 这 种 偶然 的 行为 就 会 给 两 组 带 来 差异 。 在 用 户 数 较 少 
的 情况 下 ， 某 一 个 用 户 的 偶然 行为 都 可 能 对 结果 造成 较 大 的 影响 。 但 当 
用 户 数 增多 时 ， 这 种 影响 就 会 逐渐 消失 。 因 此 ， 使 用 假设 检验 时 ， 人 数 
越 多 ， 越 容易 得 出 “存在 显著 性 差异 ”的 结论 。 

然而 ， 即 使 “存在 显著 性 差异 ”"， 这 种 差异 在 商业 领域 也 未 必 有 意 
义 。 尤 其 是 在 大 数据 盛行 的 现在 ， 由 于 数据 量 的 增 大 ,假设 检验 中 “用 
户 数 较 少 导致 的 偏差 ”已 经 很 小 了 ， 因 此 我 们 很 难 再 断言 “不 做 假设 检 
验 就 不 知道 是 否 存在 显著 性 差异 ”的 那些 差异 还 有 意义 。 

尽管 如 此 ， 万 一 出 现 了 “看 上 去 像 是 有 差异 ， 而 实际 上 不 是 显著 性 
异 ” 的 情况 还 是 很 麻烦 的 ， 因 此 我 们 需要 通过 假设 检验 来 过 滤 出 显著 
性 差异 。 这 里 并 不 是 说 只 要 “通过 假设 检验 找 出 差异 ”就 可 以 了 ， 而 是 
要 “ 先 通 过 假设 检验 找 出 有 统计 意义 的 差异 ， 再 探讨 这 个 差异 在 商业 活 
动 中 是 否 有 意义 ”。 


收集 和 加 工 验 证 所 需要 的 数据 


国 A/B 测 试 的 日 志 输出 

确定 了 验证 方法 之 后 ， 接 着 就 要 考虑 如 何 收集 数据 了 。 前 面 说 过 ， 
现在 我 们 还 没有 任何 可 用 的 数据 ， 所 以 需要 和 《 黑 猫 拼图 》 游 戏 的 开发 
人 员 协 商 ， 请 他 们 输出 如 下 日 志 ， 以 方便 我 们 进行 A/B 测试 。 













































































e@ ab_test_imp (关于 广告 曝光 次 数 的 信息 ) 
@ab_test_goal ( 关于 广告 点 击 次 数 的 信息 ) 


具体 的 数据 如 下 所 示 。 
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@@ ab_test_imp 
数据 类 型 R 语言 中 的 标识 
广告 曝光 日 期 string ( 字符 串 ) log_date 
测试 名 string ( 字符 串 ) test_name 
测试 用 例 (A 或 B) string ( 字符 串 ) test_case 
用 户 ID int ( 数值 ) user_id 
事务 ID int ( 数值 ) transaction_id 






































R 语言 中 的 标识 
广告 点 击 日 期 string ( 字符 串 ) log_date.g 
测试 名 string ( 字符 串 ) test_name.g 
测试 用 例 (A 或 B) string ( 字符 串 ) test_case.g 
用 户 ID int ( 数值 ) user_id.g 
事务 ID int ( 数值 ) transaction_id 




















※ 事务 ID : 广告 曝光 时 生成 的 ID 号 ， 可 以 作为 key 来 合并 曝光 日 志和 
点 去 日 A 


国 分 析 前 的 数据 加 工 
为 了 方便 A/B 测试 的 分 析 ， 我 们 需要 将 上 述 两 份 日 志 合并 起 来 。 具 


体 可 按 如 下 步 又 对 数据 进行 加 工 。 -全 -时 
ee O50 \0502) 


1. 将 广告 的 曝光 次 数 信息 和 点 击 次 数 信息 合并 起 来 
2. 生成 一 个 新 的 标志 位 来 标识 该 条 记录 是 否 被 点 击 


@ 完成 上 述 处 理 后 的 数据 





测试 用 例 用 户 ID 是 否 被 点 击 
1 2013 年 10 月 2 日 A 49017 No 



































2 2013 年 10 月 2 日 B 49018 No 
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曝光 日 期 测试 用 例 用 户 ID 是 否 被 点 击 
3 2013 年 10 月 2 日 A 44338 No 
35 2013 年 10 月 2 日 B 36098 No 
36 2013 年 10 月 2 B 35315 Yes 
37 2013 年 10 月 2 日 A 20963 No 
42 2013 年 10 月 2 A 49776 No 
43 2013 年 10 月 2 日 B 49026 Yes 
44 2013 年 10 月 2 A 48723 No 
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和 数据 分 析 




















弄 清楚 A 和 B 的 点 击 率 是 否 存在 显著 性 差异 
在 准备 好 各 种 分 析 所 需 的 数据 后 ， 我 们 来 统计 一 下 A 和 了 两 个 广 



































告 的 点 击 率 ， 以 确认 哪个 广告 的 效果 更 好 。 
点 击 率 -全 

A 0.08026 

0.11546 














观察 A 和 B 的 点 击 率 ， 我 们 发 现 A 的 点 击 率 为 0.08026， 大 约 是 
8%， 而 B 的 点 击 率 为 0.11546， 大 约 是 12%。 在 探讨 这 二 者 的 差异 之 
前 ， 首 先 需 要 对 其 进行 假设 检验 。 像 本 例 这 样 ， 针 对 两 种 广告 点 击 情况 
的 差异 来 进行 假设 检验 ， 一 般 采 用 的 是 卡 方 检 验 。 四 





针对 上 例 进行 卡 方 检验 ， 其 结果 的 p 值 为 22e-16， 也 就 是 2.2x10， 
是 一 个 非常 小 的 数值 。p 值 越 接近 于 0 差异 性 越 大 。 通 常 来 说 ， 当 p 值 
小 于 0.05 时 ， 称 为 “存在 显著 性 差异 ”。 至 于 为 什么 是 “0.05”， 各 个 领 
域 对 这 个 问题 都 有 讨论 ， 请 读者 自行 参考 其 他 的 专业 书籍 。 在 本 例 中 ， 
由 于 p 值 非常 接近 于 0， 因 此 我 们 可 以 说 : 在 将 两 种 广告 分 为 A 和 B 并 
同时 投放 后 ， 所 得 到 的 点 击 率 存 在 显著 性 差异 。 
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广告 A 和 B 的 点 击 率 的 时 间 序 列 变化 的 可 视 化 


在 确认 了 二 者 “存在 显著 性 差异 ”后 ， 我 们 再 来 看 这 种 差异 在 商业 
领域 里 是 否 有 意义 。 在 本 例 中 ， 原 来 广告 的 点 击 率 只 有 6%， 而 其 他 应 
用 的 广告 的 点 击 率 为 12%。 为 了 填补 这 个 差异 ， 我 们 进行 了 测试 。 通 过 
观察 结果 可 以 发 现 广 告 B 的 点 击 率 达 到 了 大 约 12%， 基 本 上 达到 了 我 们 
的 目的 ， 因 此 在 商业 领域 里 这 也 是 一 个 有 意义 的 差异 。 最 后 ， 我 们 再 确 
认 一 下 点 击 率 的 时 间 序 列 变化 情况 。 在 时 间 序 列 图 中 ， 如 果 广 告 B 的 效 
果 始 终 都 比 广告 A 好 的 话 ， 那 就 没有 问题 ， 但 是 如 果 只 是 在 某 个 时 间 段 
内 广告 B 的 效果 更 好 ， 那 就 需要 考虑 是 否 存 在 别 的 原因 了 。 将 广告 的 点 


击 率 变化 反映 在 散 点 图 上 ， 如 下 图 所 示 。 
Se 



































test_case 
会 人 
妇 BB 








' 1 
10 21 10 28 


' ' 
930 10 07 014 
log_date 


广告 A 和 广告 B 的 点 击 率 的 时 间 序 列 变化 





通过 上 图 可 知 , 广告 B 的 点 击 率 在 大 多 数 时 候 都 优 于 广告 A。 所 以 
总 的 说 来 ,广告 B 的 效果 始终 都 比 广告 A 好 。 

也 就 是 说 ， 正 是 因为 我 们 改变 了 所 投放 的 广告 ， 所 以 点 击 率 也 随 之 
发 生 了 变化 。 
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解决 对 策 


分 析 的 结果 是 ,广告 B 比 广告 A 更 容易 被 用 户 点 击 ， 因 此 我 们 需要 
在 《 黑 猫 拼图 》 游 戏 里 投放 广告 B。 今 后， 我 们 可 以 继续 通过 这 种 A/B 
测试 的 方式 来 找到 最 合适 的 广告 。 


























图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


5.6 小 结 | 99 





小 结 














本 章 中 我 们 使 用 A/B 测试 对 广告 进行 了 分 析 。 

本 曹 围绕 《 黑 猫 拼图 》 游 戏 装备 大 促销 活动 中 购买 率 比 其 他 应 用 低 
的 问题 ， 通 过 咨询 相关 部 门 ， 明 确 了 造成 这 个 问题 的 原因 是 广告 的 点 击 

另外 ， 本 例 中 起 初 并 没有 可 用 于 分 析 的 数据 ， 所 以 我 们 通过 A/B 测 
试 来 收集 其 中 的 日 志 并 获取 分 析 用 的 数据 。 在 A/B 测试 上 线 后 ， 计 算得 
到 广告 A 和 广告 B 的 点 击 率 ， 并 对 其 进行 了 卡 方 检验 。 






























































结果 显示 , 广告 B 比 广告 A 更 容易 被 用 户 点 击 ， 因 此 此 次 在 《 黑 
猫 拼图 》 游 戏 中 应 使 用 广告 B。 而 且 今 后 我 们 可 以 按照 该 流程 ， 继 续 使 
用 A/B 测试 来 寻找 最 合适 的 广告 。 
分 析 流 程 第 5 章 中 数据 分 析 的 成 本 
现状 和 预期 


发 现 问题 


























数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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详细 的 愉 代 三 

















合并 ab.test.imp 和 ab.test.goal 的 数据 





R-CODE 


# 读 入 数据 Wy 
abstese inp < readesm sectuons abltestaimp esv neader Tn, 
stringsAsFactors=F) 


abseest oo readesy eectlonbe abntestaogoal es ASS 三 
stringsAsFactors=F) 


合并 ab .test.imp 和 ab.test.goal 
abmtese impe meoelaostestnimnp ab tutestrgoaby utransaotiond 
el ELI ea Sele Ue ey 
head (ab.test .imp) 


利用 read .csv 函数 将 ab .test.imp 和 ab.test.goal 的 数据 从 
CSYV 文件 读 入 到 及 程序 里 ， 并 将 这 两 种 数据 通过 merge 函数 合并 起 来 。 


@ ab.test.imp ( 合并 后 ) 




















| transaction id og date app name test name test case user id 
| 1 1 2013-10-02 game-01 sales test A 49017 
| 人 2 2013-10-02 game-01 sales test B 49018 
: 3 3 2013-10-02 game-01 sales test A 44338 
| 4 4 2013-10-02 game-01 sales test A 44339 |! 
| 5 5 2013-10-02 game-01 sales test A 28598 | 
| 6 6 2013-10-02 game-01 sales test B 30306 | 
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## log date.g app name.g test name.g test case.g user id.g 


## 1 <NA> <NA> <NA> <NA> NA 
## 2 <NA> <NA> <NA> <NA> NA 
! 有 3 <NA> <NA> <NA> <NA> NA 
## 4 <NA> <NA> <NA> <NA> NA 
## 5 <NA> <NA> <NA> <NA> NA 
## 6 <NA> <NA> <NA> <NA> NA 





生成 用 于 标识 点 击 情 况 的 标志 位 


R-CODE 
# 增加 点 击 标志 位 < 


ab tese mp ls oe< LEEeTESSILOISRnaUabaesstinpSUssz dj)RO ) 
head (ab.test .imp) 


上 述 代码 表示 在 ab .test .imp 数据 中 增加 is .goal 属性 。 

当 属 性 user_id.g 的 值 为 空 (NA ) 时 ,属性 is .goal 赋值 为 “0”， 
其 他 情况 下 属性 is .goal 赋值 为 “1”， 这 样 就 得 到 了 用 于 判定 是 否 进行 
了 点 击 的 标志 位 。 











统计 点 击 率 


4 计算 点 击 率 50% 


library (plyr) 


dqply (ap. test. imp. (testlcase) summarizey 
cvr=sum(is.goal)/length (user id) ) 


计算 时 使 用 了 plyz 程序 包 中 的 adply 函数 。 利 用 adply 函数 可 以 
对 ab.test.imp 数据 中 属性 test_case 的 每 个 取 值 做 统计 。 通 过 “点 
击 的 人 数 总 和 /曝光 的 人 数 ” 算 出 点 击 率 ， 并 记录 到 属性 cvr 中 。 
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| ## ”test_case cvr 全 广告 A 的 点 击 率 约 为 8%6、 
| 样 工 A 0.08026 ”广告 B 的 点 击 率 约 为 12% : 
| 樟 2 B 0.11546 | 





R-CODE 


# 进 行 卡 方 检验 \95-04) 


chisq. testl(ab. test impSstest case, aptest. impsiseogoal) 














在 及 语言 中 可 以 使 用 chisq .test 也 数 来 进行 卡 方 检验 。 


| ## Pearson's Chi-squared test with Yates' continuity correction 
1 相 # 
| ## data: ab.test.imp$test_case and ab.test.imp$is.goal 


村 X-squared = 308.4, Gf = 1, 人 
一 个 相当 小 的 值 





算出 每 个 测试 用 例 的 点 击 率 


R-CODE 











# 算出 每 天 每 个 测试 用 例 的 点 击 率 
ab.test.imp.summary <- 
agdpeuly (ab ceste mp coEdace eesticase svmmarlzen 
imp=length(user id), 
Gv=SUmrs al 
cvr=sum(is.goal)/length (user id) ) 


















































# 算出 每 个 测试 用 例 的 点 击 
ab.test.imp.summary <- 
daply (ab. test. imp.summary, (Eesticase) transform, 
cvr.avg=sum (cv) /sum (imp)) 
head (ab.test.imp.summary) 
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ddply 函数 是 一 个 高 性 能 的 统计 工具 ， 应 用 非常 广泛 ， 这 里 不 细 说 
了 。 在 本 例 中 ， 我 们 使 用 adply 也 数 来 处 理 ab .test .imp 数据 ， 按 照 
log_date 和 test_case 进行 了 3 次 统计 计算 。 第 1 次 是 计算 user_id 
数 的 总 和 并 记录 在 属性 imp 里 ; 第 2 次 是 将 is.goal 的 总 和 记录 在 属性 
cv 里 ; 第 3 次 是 用 属性 cv 的 值 除 以 属性 imp 的 值 ， 并 将 结果 记录 在 属 
性 cvz 里 。 也 就 是 说 ， 我 们 在 这 里 统计 了 某 一 天 某 个 广告 被 曝光 了 多 少 
次 、 被 多 少 用 户 点 击 ， 以 及 点 击 率 是 多 少 。 

然后 ， 通 过 将 函数 中 的 “summarize” 替 换 成 “transform”， 就 可 
以 将 统计 结果 追加 到 原来 的 数据 中 。 这 里 我 们 将 每 个 test_case 的 点 击 
率 追 加 到 了 原 数 据 中 。 



































## log date test case imp ¢cv CVvr cvr.avg | 
i #1 2013-10-01 A 1358 98 0.07216 0.08026 
i 失 2 2013-10-02 A 1370 88 0.06423 0.08026 
i 失 3 2013-10-03 A 1213 170 0.14015 0.08026 
; #4 2013-10-04 A 1521 89 0.05851 0.08026 
i 失 5 2013-10-05 A 1587 56 0.03529 0.08026 
i 插 6 2013-10-06 A 1219 120 0.09844 0.08026 





可 以 看 到 ,我们 新 增加 了 属性 cvr .avg， 并 把 按照 test_case 统 
计 的 结果 保存 到 了 数据 当中 。 
在 数据 都 齐备 后 ， 下 面 我 们 来 将 数据 可 视 化 。 








生成 每 个 测试 用 例 的 点 击 率 时 序 图 


R-CODE 
library (ggplot2) pene, 


library (scales) 


ab.test.imp.summary$1log date <- as.Datel(lab.test.imp.summary$1log_ 
date) 
limits <- c(0, max(ab.test.imp.summary$cvr)) 
ggplot (ab.test.imp.summary,aes (X=10g date,y=cvr, 
col=test case,lty=test case, shape=test case)) + 
geom line(lwd=1) + 
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geom point (size=4) + 
geom line (aes (y=cvr.avg,col=test case)) + 
scale y continuous (label=percent, limits=limits) 


跟 之 前 一 样 ， 作 图 仍 需 使 用 ggplot2 工具 包 。 
在 使 用 ggplot 函数 的 同时 ， 还 可 以 使 用 geom line、geom point 
等 函数 来 共同 生成 视图 。 上 面 的 代码 中 第 9 行 需要 特别 说 明 一 下 : 























geom line (aes (y=cvr.avg,col=test case) ) 


通过 上 述 代码 可 以 看 出 ， 除 了 可 以 在 图 中 描绘 出 ggplot 函数 指定 
的 变量 ， 其 他 形式 的 数据 也 可 以 在 图 中 表现 出 来 。 











公公 


test_case 
信人 
二 BB 


Cvr 











' ' 1 ' ' 
930 10 07 10 14 10 21 10 28 
log_date 


广告 A 和 广告 B 的 点 击 率 的 时 间 序 列 变化 
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[分 析 基 础 ] 篇 
第 6 章 
案例 @ 一 多 元 回归 分 析 


如 何 通过 各 种 广告 的 
组 合 获得 更 多 的 用 户 


投放 传统 媒体 广告 的 最 优化 问题 

到 目前 为 止 我 们 已 经 在 互联 网 上 投放 了 《 黑 猎 拼图》 游戏 
广告 。 但 为 了 获得 更 多 的 用 户 ， 我 们 决定 也 在 传统 媒体 ( 
视 、 杂 志 ) 上 投放 广告 。 基 于 过 去 其 他 游戏 广告 的 数据 ， 
们 希望 能 够 获得 效果 最 好 的 广告 投放 方式 ， 那 么 我 们 该 怎 
做 呢 ? 
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十 国 现状 和 预期 


























互联 网 广告 和 传统 媒体 广告 


在 互联 网 上 投放 广告 ， 单 价 比 较 便宜 ， 并 且 能 够 吸引 到 稳定 的 新 注 
册 用 户 。 虽 然 互 联网 广告 可 以 根据 投入 的 成 本 预 估 效果 ， 但 相对 于 电 
视 、 杂 志 等 传统 媒体 来 说 ， 它 的 受众 数量 是 有 限 的 ， 因 此 要 想 使 用 户 达 
到 一 定数 量 ， 一 般 还 是 要 在 传统 媒体 上 投放 广告 。 然 而 ， 和 互联 网 广告 
相 比 ， 传 统 媒体 的 广告 成 本 要 高 得 多 。 另 外 ， 如 下 图 所 示 ， 根 据 广告 投 
放 媒 体 的 属性 不 同 ， 广 告 效 果 CPI ( Cost Per Install ， 获 得 一 个 新 用 户 所 
需 的 成 本 ) 的 变动 也 很 大 。 
































CPI 变 化 
2.774 


2,486 
2,443 2,388 2,375 2,451 


2,282 


2,000- 
O_ 
OO 
1.000- 
0- 
2013-01 2013-02 2013-03 2013-04 2013-05 2013-06 2013-07 2013-08 2013-09 2013-10 


month 


《 黑 猎 拼图》 游戏 在 传统 媒体 广告 上 的 CPI 时 间 序 列 变化 


2,365 2,386 2 346 





图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


6.1 “现状 和 预期 | 107 


整理 现状 和 预期 


下 面 我 们 来 整理 一 下 现状 和 预期 。 首 先 ， 我 们 所 面临 的 现状 是 广告 
效果 CPI 参 差 不 齐 。 针 对 这 种 现状 ， 在 互联 网 广告 方面 ， 我 们 和 3 家 公 
司 保持 着 合作 ， 而 在 传统 媒体 的 电视 和 杂志 上 投放 广告 时 ， 我 们 选择 了 
一 家 广告 公司 进行 合作 。 该 广告 公司 建议 我 们 ， 对 于 目前 已 合作 的 10 
家 左右 的 媒体 ， 为 了 维持 良好 的 合作 关系 ， 应 避免 连续 3 个 月 不 投放 广 
告 的 情况 。 根 据 这 个 建议 ,我 们 在 各 大 传统 媒体 上 都 投放 了 广告 。 

这 其 中 我 们 需要 确定 在 电视 和 杂志 上 投放 广告 的 合适 比例 ( 当然 也 
可 以 让 广告 公司 来 蔡 我 们 完成 这 项 工作 )。 

总 之 ， 在 本 例 中 我 们 需要 在 已 有 合作 关系 的 媒体 中 决定 如 何 分 配 广 
告 投放 的 比例 ， 以 达到 “用 较 少 的 费用 获得 更 多 的 用 户 ” 的 目的 。 那 
么 ,基于 现 有 的 数据 ， 我 们 需要 和 弄 清 广 告 和 获得 用 户 数 量 之 间 的 因果 关 
系 ， 并 找 出 最 合适 的 广告 投放 分 配 比 例 。 下 面 我 们 先 找 出 问题 。 

预期 
广告 投放 比例 


可 以 达到 最 佳 
的 效果 
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发 现 问题 











根据 下 图 





所 示 的 广告 CPI 的 变化 可 知 ， 本 例 中 的 问题 是 每 月 广告 








CPI 的 波动 较 大 。 男 一 方面 ， 互 联网 广告 每 获得 一 个 用 户 的 成 本 大 约 在 























100 日 元 。 但 是 ， 互 联网 广告 的 覆盖 范围 比较 有 限 ， 那 些 不 怎么 接触 互 


Ez 


联网 的 用 户 ， 平 时 可 





能 只 是 偶尔 使 用 一 下 Facebook 或 者 LINE， 对 于 这 


些 用 户 ， 可 以 借助 电视 或 者 杂志 等 传统 媒体 提高 他 们 对 产品 的 认 知 度 。 


























然而 ， 和 互联 网 广告 不 同 ， 电 视 和 杂志 属于 间接 型 媒体 ， 从 某 个 用 
户 通过 电视 广告 了 解 某 个 产品 并 产生 兴趣 ， 一 直到 该 用 户 尝试 购买 这 个 





产品 ， 


CPI 在 2282 日 元 到 2774 日 元 之 间 波 动 。 















































P 间 存在 着 一 定 的 时 间 间 隔 。 可 能 是 受 此 影响 ， 电 视 或 者 杂志 
告 的 CPI 高 达 几 千 日 元 。 例 如 ， 如 下 图 所 示 ， 传 统 媒体 广告 的 月 平均 








如 果 仅 仅 是 看 数值 ， 读 者 可 能 会 觉得 月 平均 CPI 的 差距 并 不 大 。 但 
由 于 每 获得 一 个 用 户 的 成 本 都 很 高 ， 因 此 我 们 要 尽 可 能 地 缩小 这 500 日 


元 的 差距 ， 如 一 














可 能 的 话 ， 应 尽量 确保 CPI 保持 在 2282 日 元 左右 。 我 


们 将 本 例 中 的 问题 细 化 如 下 。 


在 传统 媒体 上 的 广告 投放 分 配 比例 存在 问题 
一 每 月 在 电视 和 杂志 上 投放 广告 的 比例 有 所 不 同 





























通过 和 广告 部 确 




















认 ， 我 们 了 解 到 ， 虽 然 我 们 无 法 指定 投放 广告 的 电 


视 或 杂志 媒体 数量 ， 但 我 们 可 以 告诉 广告 公司 分 别 投放 在 电视 和 杂志 上 


的 比率 ， 





因此 
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1. 基于 过 去 的 数据 ， 明 确 在 电视 和 杂志 上 投放 广告 的 广告 费 和 各 自 
所 获得 的 用 户 数 之 间 的 关系 
2. 基于 上 述 关系 ， 确 定 以 何 种 比例 在 电视 和 杂志 上 投放 广告 


























至 此 ， 我 们 细 化 了 问题 ， 并 确定 了 分 析 的 步骤。 那么 ， 如 何 对 电视 
和 杂志 的 广告 费 与 各 自 所 获得 的 用 户 数 之 间 的 关系 进行 建 模 呢 ? 


CPI 变 化 
2,451 


C3 486 
2,443 2 388 2,375 2,365 2,386 2 346 
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多 元 回归 模型 的 分 析 方 法 


在 前 面 的 章节 中 ， 我 们 介绍 了 “交叉 列表 统计 ”“ 统 计 学 假设 检验 ” 
两 种 用 于 数据 间 关 联 性 分 析 的 方法 。 

















大 降价 销量 大 
派发 的 传单 多 来 店 的 顾客 多 
来 店 的 顾客 多 销售 额 大 








如 上 表 所 述 ， 通 过 明确 各 自 的 因果 关系 ， 可 以 判断 诸如 降价 和 销量 
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之 间 是 否 存在 关系 。 但 是 目前 的 分 析 仍然 不 能 回答 一 些 更 具体 的 问题 ， 
例如 “价格 下 降 多 少 能 够 带 来 多 大 的 销量 增加 ”。 在 商业 领域 , 通常 的 
做 法 是 在 充分 考虑 成 本 的 前 提 下 预 估 一 个 结果 ， 再 采取 相应 的 对 策 。 也 
就 是 说 ， 通 常 我 们 会 先 确定 结果 ， 再 反 过 来 考虑 相应 对 策 的 成 本 。 放 在 
本 次 案例 中 ， 我 们 需要 先 构 筑 一 个 可 以 预 估 各 广告 媒体 能 带 来 的 用 户 量 
的 模型 ， 再 决定 广告 的 投放 方式 。 

此 时 就 需要 用 到 “回归 分 析 / 多 元 回归 分 析 ”。 回 归 分 析 的 思路 非常 
简单 ， 可 以 说 是 交叉 列表 统计 的 扩展 。 我 们 将 数据 描绘 在 图 上 ， 每 个 点 
表示 一 个 数据 ， 其 中 横 坐 标 表 示 的 变量 称 为 自 变量 ， 纵 坐标 表示 的 变量 
称 为 因 变 量 。 然 后 我 们 在 图 上 夯 出 一 条 与 这 些 数据 点 最 为 拟 合 的 直线 ， 
根据 这 条 直线 上 任何 一 点 的 横 坐 标 ( 自 变量 ) 的 值 就 可 以 得 到 纵 坐 标 
( 因 变量 ) 的 值 ， 这 就 是 线性 回归 分 析 。 

例如 ， 通 过 交叉 列表 统计 ， 可 以 得 知 广告 费 花 得 越 多 ， 相 应 的 新 增 
用 户 就 会 越 多 。 接 下 来 我 们 就 需要 考虑 能 否 对 这 种 关系 进行 建 模 。 具 体 
来 说 ， 就 是 当 我 们 知道 了 广告 费用 的 预算 之 后 ， 是 否 能 够 预 估 出 由 此 可 
能 带 来 的 新 用 户 数 量 。 我 们 以 下 面 左边 的 图 为 例 来 说 明 ， 图 中 的 横 轴 表 
示 广 告 费 ， 纵 轴 表 示 新 用 户 数 。 
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“ 告 费 广告 必 
如 图 所 示 ， 通 过 观察 图 中 的 所 有 数据 ， 可 以 发 现 广 告 费 和 新 用 户 数 
之 间 果 然 存在 一 定 的 关系 。 于 是 我 们 对 此 进行 回归 分 析 ， 并 对 这 种 关系 
建 模 ， 如 右 图 所 示 。 
图 中 的 这 条 直线 就 是 最 简单 的 一 种 模型 ， 该 直线 可 以 用 下 面 的 公式 
来 表述 。 
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新 用 户 数 =8x 广告 费 +a 








回归 分 析 就 是 根据 现 有 的 数据 来 估计 a 和 的 值 。 
根据 从 回归 分 析 的 结果 得 出 的 公式 和 各 项 指标 ， 我 们 进行 如 下 
分 析 。 








@ 原因 数据 真 的 会 对 结果 数据 产生 影响 吗 
坟 广 告 费 ( 自 变 量 ) 的 变化 真 的 会 对 新 用 户 数 〈 因 变量 ) 产生 
影响 吗 


@ 如 果 确 实 有 影响 ， 那 么 这 是 一 种 怎样 的 关系 呢 











图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 





























112 | 第 6 章 如 何 通过 各 种 广告 的 组 合 获 得 更 多 的 


s 江 省 数据 的 收集 




















探讨 和 收集 分 析 所 需 的 数据 


到 目前 为 止 ， 我们 在 互联 网 、 电 视 和 杂志 3 个 广告 媒体 上 开展 了 商 
业 推 广 活动 。 使 用 过 去 实际 的 成 果 数 据 ， 我 们 就 能 够 对 各 个 广告 媒体 的 
效果 进行 分 析 。 

在 这 3 个 广告 媒体 中 ， 由 于 互联 网 广告 的 效果 可 以 直接 测定 ， 因 此 
哪个 网 站 的 广告 有 什么 样 的 效果 ， 其 CPI 很 明确 。 然 而 ， 关 于 电视 和 杂 
志 广 告 ， 我 们 只 能 获取 总 体 的 用 户 数 增加 了 这 类 粗略 的 信息 。 因 此 , 我 
们 排除 了 互联 网 广告 所 带 来 的 新 用 户 ， 将 剩余 的 新 用 户 数 和 花费 在 电视 
以 及 杂志 上 的 广告 费 作 为 分 析 用 的 数据 。 

经 和 市 场 部 确认 得 知 ， 这 些 数据 一 直 都 在 用 Excel 管理 ， 因 此 我 们 
只 需 将 必要 的 数据 存 人 CSV 文件 ， 再 将 其 读 入 到 分 析 软 件 中 即 可 。 


> R-CODE 
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《 黑 猫 拼图 》 游 戏 在 电视 和 杂志 上 投入 的 广告 费 和 所 获得 的 新 用 户 数 









































































































































电视 广告 费 杂志 广告 费 
2013 年 1 月 6358 5955 53948 
2013 年 2 8176 6069 57300 
2013 年 3 月 6853 5862 52057 
2013 年 4 5271 5247 44044 
2013 年 5 6473 6365 54063 
2013 年 6 月 7682 6555 58097 
2013 年 7 5666 5546 47407 
2013 年 8 月 6659 6066 53333 
2013 年 9 6066 5646 49918 
2013 年 10 10090 6545 59963 
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时 加 数据 分 析 











首先 ， 我 们 需要 确认 广告 和 新 用 户 数 之 间 是 否 存在 关系 。 如 果 二 者 








之 间 的 关系 不 那么 强 ， 就 不 能 断言 用 户 数量 的 增加 是 由 广告 带 来 的 。 我 


们 将 数据 之 间 的 关系 的 强 弱 称 为 

















“相关 性 ”。 为 了 确认 这 种 相关 性 ， 一 














般 来 说 首先 需要 观察 数据 的 散 点 图 。 








电视 、 杂 志 的 广告 费 和 新 用 户 数 的 散 点 图 


户 数 




















新 


电视 广告 费 
电视 广告 费 和 新 用 户 数 








Se 
We ee 




















无 论 是 电视 广告 还 是 杂志 广告 ， 从 散 点 图 来 看 ， 随 着 投入 的 广告 费 
用 的 增加 ， 新 获得 的 用 户 数 也 会 增加 ， 反 应 在 图 上 就 是 数据 点 不 断 地 向 
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右上 方 延 伸 。 既 然 明 确 了 广告 费 和 新 用 户 数 之 间 存 在 关系 ， 下 面 我 们 就 
来 着 手 进行 回归 分 析 。 


进行 多 元 回归 分 析 


@ 多 元 回归 模型 的 系数 
截 距 项 电视 广告 费 kK 志 








188.17 1.36 7.25 





根据 上 表 的 输出 结果 ， 我 们 可 以 得 到 下 述 关系 。 


新 用 户 数 = 1.361 x 电视 广告 费 + 7.250 x 杂志 广告 费 + 188.174 








从 上 式 可 以 看 出 ， 如 果 不 投 放 广 告 ， 则 每 月 新 增 的 用 户 数 为 大 约 
188 人 。 如 果 在 电视 广告 上 投入 1 日 元 ， 就 能 够 获得 1 名 新 用 户 。 在 杂 
志 广 告 上 投入 1 日 元 ， 则 可 获得 7 名 新 用 户 。 也 就 是 说 ， 通 过 杂志 广告 
来 获得 新 用 户 的 效率 要 远 远 高 于 电视 广告 。 








对 多 元 回归 模型 的 详细 探讨 
对 于 上 面 的 模型 公式 ， 我 们 再 做 进一步 探讨 。 


-全 
全 残 差 的 分 布 ony 

















第 1 四 分 位 数 中 值 第 3 四 分 位 数 最 大 值 


—1406.9 -984.5 —12.1 432.8 1985.8 





残 差 ( 预测 值 和 实际 值 之 差 ) 的 分 布 用 四 分 位 数 的 方式 来 表示 ， 据 
此 可 以 判断 数据 是 否 存 在 异常 偏差 。 
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@@ 多 元 回归 模型 的 系数 
预 估 值 标准 误差 t 值 p 值 
截 距 项 ( 常数 项 ) 188.174 7719.131 0.02 | 0.9812 
电视 广告 费 1.361 0.517 2.63 | 0.0339 * 
杂志 广告 费 7.250 1.693 4.28 | 0.0036 | ** 
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1''1 











上 表 总 结 了 预 估 得 到 的 常数 项 和 和 斜率 等 数据 。 每 一 行 的 数据 分 别 是 
预 估 值 、 标 准 误差 、t 值 、p 值 ， 据 此 可 以 得 知 每 个 属性 相应 的 斜率 是 多 
少 ， 以 及 是 否 具有 统计 学 意义 。 








@) 判定 系数 和 自由 度 校 正 判定 系数 
判定 系数 : 0.938， 自 由 度 校正 判定 系数 : 0.92 
判定 系数 越 接近 于 1 ， 表 示 这 个 模型 拟 合 得 越 好 。 


观察 由 中 的 残 差 分 布 ， 我 们 发 现 ， 第 1 四 分 位 数 的 绝对 值 要 大 于 第 
3 四 分 位 数 的 绝对 值 ， 这 说 明 某 些 数据 点 的 分 布 存在 偏差 .但 由 于 @ 中 
自由 度 校正 判定 系数 的 值 较 高 ， 因 此 现在 的 广告 投放 策略 应 该 是 没有 问 


题 的 。 
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解决 对 策 


本 例 中 我 们 围绕 如 下 问题 进行 了 分 析 。 




















1. 通过 各 种 传统 媒体 广告 所 获得 的 新 用 户 数 不 尽 相同 (事实 ) 
2. 每 月 获得 的 新 用 户 数 与 在 电视 和 杂志 上 的 广告 投放 比例 相关 

( 假设 ) 
3. 把 握 电 视 广 告 费 和 杂志 广告 费 各 自 与 获得 的 新 用 户 数 之 间 的 关系 
4. 基于 这 种 关系 ， 确 定 一 个 最 佳 的 广告 分 配 比例 


基于 上 述 问题 设 定 ， 我 们 使 用 多 元 回归 分 析 推 导出 了 传统 媒体 广告 
和 新 用 户 数 之 间 的 关系 ， 如 下 所 示 。 




















新 用 户 数 = 1.361 x 电视 广告 费 +7.250 x 杂志 广告 费 ++ 188.174 





从 上 式 可 以 看 出 ， 相 比 于 电视 广告 ,杂志 广 告 的 效果 要 更 好 一 些 。 
即便 采取 只 投放 杂志 广告 而 不 投放 电视 广告 的 极端 行为 ， 效 果 也 不 会 太 
差 。 但 是 上 述 公式 毕竟 只 是 基于 本 例 中 的 数据 计算 得 出 的 ， 对 于 超出 本 
例 数据 范围 的 值 则 不 适用 。 

另外 ， 如 前 所 述 ， 为 了 维持 和 广告 公司 的 合作 关系 ， 我 们 不 会 对 任 
何 一 家 广告 媒体 连续 3 个 月 不 投放 任何 广告 。 
因此 ， 这 回 我 们 将 按照 下 述 比例 来 分 配 广告 费用 。 









































电视 广告 : 4200 万 日 元 杂志 广告 : 7500 万 日 元 
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根据 上 面 的 计算 公式 ， 我们 可 以 得 到 如 下 结 





60279 人 =1.361 x (4200 万 日 元 )+7.250 x (7500 万 日 元 ) +188.174 


也 就 是 说 ， 我 们 预期 可 以 获得 大 约 6 万 的 新 用 户 。 
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本 章 介 绍 了 数据 分 析 中 的 多 元 回归 分 析 。 
对 于 那些 成 本 较 高 的 问题 ， 该 方法 可 用 于 最 优化 其 效益 成 本 比 。 尤 
其 在 商业 领域 , 大 家 一 般 都 更 关注 成 本 较 高 的 事情 ， 哪 怕 只 提升 了 少许 
的 效果 ， 对 于 整体 来 说 也 可 能 起 到 很 大 的 作用 。 这 种 情况 下 最 适合 使 用 
多 元 回归 分 析 ， 该 方法 能 够 预测 出 每 种 策略 应 该 占 多 大 比重 。 
在 事前 能 预测 大 部 分 结果 ， 且 在 实施 阶段 需要 耗费 高 成 本 的 情况 
下 ， 多 元 回归 分 析 是 不 二 的 选择 。 
分 析 流 程 第 6 章 中 数据 分 析 的 成 本 
现状 和 预期 
发 现 问题 
数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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s 知 旋 详细 的] R 代码 





























读 入 CSV 文件 





R-CODE 


# 读 入 CSV 文 件 5014 


ad.data <- read.csv("./ad result.csv'", header = T, stringsAsFactors 


ee 
ad.data 

## month tvcem magazine install : 
## 1 2013-01 6358 5955 53948 
## 2 2013-02 8176 6069 57300 
## 3 2013-03 6853 5862 52057 
## 4 2013-04 5271 5247 44044 
## 5 2013-05 6473 6365 54063 | 
## 6 2013-06 7682 6555 58097 
## 7 2013-07 5666 5546 47407 | 
## 8 2013-08 6659 6066 53333 
## 9 2013-09 6066 5646 49918 
## 10 2013-10 10090 6545 59963 








生成 电视 广告 费 和 新 用 户 数 的 散 点 图 


※ 如 果 在 作 图 中 不 能 显示 汉字 ， 请 执行 library (sysfonts) 和 1ibrary 
(showtext) 这 两 个 命令 来 导入 字体 包 。 
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R-CODE 


library (ggplot2) D02, 


library (scales) 


# TVCM 

ggplot (ad.data, aes(x = tvem, y = install)) + geom point() + 
xlab ("电视 广告 费 ") + ylab ("新 用 户 数 ") 

Scale x continuous(label = comma) + scale y continuous(label = comma) 























60,000- 


55,000 ~ 


户 数 




















50,000 — 


45,000 - 


' ' 1 1 1 
6.000 7.000 8,000 9,000 10,000 


电视 广告 费 





生成 杂志 广告 费 和 新 用 户 数 的 散 点 图 


R-CODE 


4 杂志 广告 WD 


ggplot (ad.data, aes(x = magazine, y = install)) + geom point() + 
xlab ("杂志 广告 费 ") + ylab(" 新 用 户 数 ") + scale x continuous (label = comma) 
+ Scale y continuous (label = comma) 
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60.000- 




















45,.000- 


5,200 5.600 6.000 6400 


进行 回归 分 析 


在 R 语言 中 ， 进 行 回 归 分 析 通 常 使 用 lm 函数 。 
































R-CODE 
> 半生 06-04 

# 进行 回归 分 析 
JE 


"magazine") ] ) 
eatis 


lIm(A~ ., data = ZZ[, c("A","B","C")]) 





首先 ， 通 过 data= 来 指明 进行 回归 分 析 所 需要 用 到 的 是 22 数据 中 
的 属性 A、B 和 c， 并 在 这 之 前 指明 所 需要 用 到 的 回归 模型 。 

上 式 中 的 “A 。.” 表 示 回归 模型 为 A-B+C。 其 中 “~” 相 当 于 数学 
中 的 等 号 ,“.” 是 一 个 省 略 记号 ， 表 示 在 aata 中 声明 使 用 的 所 有 属性 里 
将 除 属性 A 之 外 的 其 他 所 有 属性 相 加 。 因 此 上 式 等 同 于 lm (A~B+C， 
data=22[，c("A"，"B","C")])。 又 因为 上 式 中 除 属性 A 外 只 有 2 个 属 
性 ， 所 以 不 用 省 略 直接 列 出 其 他 所 有 属性 也 是 可 以 的 ， 但 当 用 到 的 属性 
数量 多 达 几 十 个 时 ， 使 用 省 略 记号 “.” 还 是 很 方便 的 。 






































也 吕 
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## Call: 

## lm ( formula = install ~ ., data = ad.data[, c ("install", "tvem", 

## "magazine" ) ] ) 

#### 

## Coefficients: 

## ( Intercept ) tvem magazine 

拉 # 188.17 1.36 7.25 | 多 元 回归 模型 式 的 
系数 预 估 值 


通过 输入 fit 就 能 确定 多 元 回归 方程 的 系数 ， 从 而 构建 出 多 元 回归 
模型 。 例 如 从 上 面 的 结果 我 们 可 以 得 到 以 下 模型 。 


























新 用 户 数 = 1.36 x 电视 广告 费 +7.25 x 杂志 广告 费 +188.17 





从 上 式 可 以 得 知 ， 哪 怕 不 投放 任何 广告 ,每 月 也 能 新 增 大 约 188 名 
用 户 。 在 电视 广告 中 多 投入 1 日 元 可 多 获得 1 名 新 用 户 ， 而 在 杂志 广告 
中 多 投入 1 日 元 则 可 多 获得 7 名 新 用 户 。 也 就 是 说 ， 在 投放 《 黑 猫 拼 
图 》 游 戏 的 广告 时 ， 杂 志 广 告 要 比 电 视 广告 更 能 吸引 到 新 用 户 。 


对 回归 分 析 结 果 的 解释 


对 于 lm 函数 的 结果 ， 可 以 用 RR 语言 中 的 summary 也 数 来 对 其 进行 
解释 。 下 面 我 们 来 详细 介绍 一 下 summary 函数 。 


R-CODE 
summary (fit) boas 


## Call: 
## lm(formula = install ~ ., data = ad.data[, c("install", "tvem", 


























## "magazine") ]) 
## Residuals: 


## Min 1Q Median 3Q Max | oma 
## -1406.9 -984.5 2 432.8 1985.8 
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## Coefficients: 

Ht Estimate Std. Error t value Pr(>|t|) | 
## (Intercept) 188.174 7719.131 0.02 0.9812 © 系数 的 预 估 : 
## tvem 1.361 0.517 2.63 0.0339 * 值 的 概要 ; 
tH## magazine 75250 1.693 4.28 0.0036 ** 

H## --- 

## Signif. codes: 0 xxx 0.001 'xx 0.01 i*! 0.05 .+ 0.1' '1 

## Residual standard error: 1390 on 7 degrees of freedom | 
人 @ 判定 系数 及 其 | 
## F-statistic: 52.9 on 2 and 7 DF, p-value: 5.97e-05 自由 度 校 正 值 : 


从 执行 结果 可 以 得 知 以 下 内 容 ， 我 们 来 一 个 一 个 地 详细 阐述 。 





() Residuals 
残 差 也 就 是 预测 值 和 实际 值 之 差 ， 我 们 将 残 差 的 分 布 用 四 分 位 数 的 
方式 表示 出 来 ， 就 可 以 据 此 来 判断 是 否 存 在 较 大 的 偏差 。 





(@) Coefficients 

这 里 是 与 预 估 的 常数 项 和 和 斜率 相关 的 内 容 。 每 行内 容 都 按照 预 估 
值 、 标 准 误差 .t+ 值 、p 值 的 顺序 给 出 。 我 们 可 以 由 此 得 知 各 个 属性 的 斜 
率 是 多 少 ， 以 及 是 否 具有 统计 学 意义 。 




















(3) Multiple R-squared、Adjusted R-squared 

判定 系数 越 接近 于 1， 表 示 模 型 拟 合 得 越 好 。 

通过 观察 残 差 的 分 布 ， 我 们 发 现 1Q (第 1 四 分 位 数 ) 的 绝对 值 比 
3Q (第 3 四 分 位 数 ) 的 绝对 值 要 大 ， 这 表明 某 些 数据 的 分 布 偏差 过 大 。 
但 由 于 自由 度 校 正 判定 系数 的 值 高 达 0.92， 因 此 之 前 所 决定 的 广告 策略 
应 该 没有 什么 问题 。 
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第 7 章 

案例 @ 一 逻辑 回归 分 析 
根据 过 去 的 行为 能 否 预测 
当下 


从 非 智 能 手机 更 换 到 智能 手机 的 分 析 


我 们 怀疑 很 多 《垂钓 乐园 》 游 戏 的 用 户 从 非 智 能 手机 更 换 到 智 
能 手机 后 ， 过 去 使 用 的 游戏 账号 可 能 不 能 继续 在 新 的 手机 上 
使 用 了 。 因 此 需要 根据 之 前 用 户 的 访问 情况 来 预 估 到 底 有 
多 少 用 户 因为 这 个 原因 流失 了 ， 那 么 我 们 应 该 怎么 做 呢 ? 
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有 国 期 望 增加 游戏 的 智能 
手机 用 户 量 

















《垂钓 乐园 》 游 戏 用 户 量 减 少 的 问题 


除了 《 黑 猫 拼 图 》 游 戏 ， 公 司 还 有 一 款 名 为 《垂钓 乐园 》 的 社交 游 
戏 。 这 个 游戏 开始 投入 市 场 的 时 候 智能 手机 还 没有 出 现 ， 因 此 当时 这 款 
游戏 是 针对 非 智 能 手机 定制 开发 的 。 然 而 ， 随 着 智能 手机 的 快速 普及 ， 
公司 也 随 之 在 这 款 游戏 中 加 入 了 针对 智能 手机 的 功能 ， 以 及 用 户 账 号 的 
迁 转 功能 ， 以 便 用 户 在 智能 手机 上 继续 使 用 过 去 非 智能 手机 中 的 游戏 账 
号 。 这 些 功 能 上 线 后 ， 智 能 手机 的 游戏 用 户 量 稳步 上 升 ， 同 时 游戏 的 总 
用 户 量 也 不 断 增 加 。 

然而 ， 最 近 《 垂 钓 乐园 》 的 用 户 量 却 在 不 断 减少 。 我 们 从 各 种 角度 
分 析 了 这 个 问题 ， 然 后 发 现 游戏 的 非 智能 手机 用 户 大 量 减少 了 (如 下 图 
所 示 )。 


























1， 。 非 智能 手机 


智能 手机 


《垂钓 乐园 》 不 同 设备 用 户 量 的 时 间 序列 变化 
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非 智能 手机 用 户 量 的 减少 主要 是 由 移动 终端 市 场 的 变化 所 致 


首先 ， 随 着 移动 终端 市 场 的 发 展 ， 非 智能 手机 的 用 户 量 在 逐渐 减 
少 ， 而 智能 手机 的 用 户 量 在 不 断 增 加 。 从 这 样 的 趋势 来 看 ， 使 用 非 智能 
手机 的 游戏 用 户 不 断 减少 是 大 势 所 趋 。 其 他 游戏 的 非 智 能 手机 用 户 的 情 
况 也 是 如 此 。 但 是 ， 在 其 他 游戏 中 ， 虽然 非 智 能 手机 的 用 户 量 在 减 小 ， 
但 智能 手机 的 用 户 量 在 增加 ， 因 而 总 用 户 量 大 致 没有 变化 。 也 就 是 说 ， 
和 其 他 游戏 相 比 ,《 垂 钓 乐园 》 游 戏 的 非 智能 手机 用 户 量 也 减少 了 ,但 
是 智能 手机 用 户 量 的 增加 幅度 却 比 较 小 。 























用 智能 手机 用 户 量 的 增加 来 浆 补 非 智能 手机 用 户 量 的 减少 
下 面 我 们 来 整理 一 下 这 个 案例 的 现状 和 预期 。 目 前 的 现状 是 : 




















智能 手机 用 户 的 增加 量 比 非 智能 手机 用 户 的 减少 量 要 少 。 








根据 这 个 现状 ， 我 们 所 希望 达到 的 预期 是 : 


智能 手机 用 户 量 的 增加 要 能 够 弥补 非 智 能 手机 用 户 量 的 减少 。 
预期 




















非 智能 手机 用 户 
减少 量 = 智能 


手机 用 户 增加 量 

































现状 光 呢 


非 智 能 手机 
用 户 减 少量 > 
智能 手机 

用 户 增加 量 


















第 7 章 的 现状 和 预期 
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是 用 户 账 号 迁 转 设 定 
失败 导致 的 问题 吗 

















思考 非 智 能 手机 用 户 流失 的 结构 

为 什么 游戏 的 智能 手机 用 户 量 的 增加 会 比 非 智能 手机 用 户 量 的 减少 
要 小 呢 ? 这 需要 我 们 仔细 思考 非 智能 手机 用 户 流失 的 结构 。 我 们 认为 这 
些 流失 的 用 户 大 致 可 分 为 下 面 两 部 分 。 
































e@ 一 直 使 用 非 智能 手机 的 用 户 流失 
@ 从 非 智能 手机 更 换 为 智能 手机 时 的 用 户 流失 














直 使 用 非 智 能 手机 的 用 户 流失 ” 指 的 是 这 些 用 户 的 流失 并 不 是 
因为 更 换 了 智能 手机 ， 而 是 自然 的 流失 。 而 因 更 换 智能 手机 造成 的 用 户 
流失 不 外 乎 下 面 几 种 情况 。 





@ 从 非 智能 手机 更 换 为 智能 手机 时 的 用 户 流失 
> 游戏 账号 迁 转 后 继续 在 智能 手机 上 使 用 
> 在 智能 手机 上 新 申请 一 个 游戏 账号 
> 干脆 就 不 再 玩 了 























将 游戏 账号 从 非 智能 手机 迁 转 到 智能 手机 的 用 户 ， 我们 将 其 算 作 是 
智能 手机 用 户 。 但 是 ， 有 些 用 户 在 更 换 智能 手机 后 就 重新 申请 了 一 个 游 
戏 账号 。 由 于 这 些 新 申请 账号 的 用 户 在 数据 上 显示 为 新 用 户 ， 因 此 很 难 
判断 这 样 的 用 户 是 不 是 更 换 了 手机 。 但 从 定期 的 问卷 调查 来 看 ， 只 有 极 
少数 用 户 会 在 更 换 智能 手机 后 重新 申请 一 个 游戏 账号 。 最 后 一 种 情况 是 
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用 户 在 更 换 了 智能 手机 后 就 不 再 玩 《 垂 钓 乐园 》 游 戏 了 ， 这 类 用 户 和 那 
些 仍 在 使 用 非 智能 手机 且 自 然 流 失 的 用 户 很 难 区 分 开 。 
将 上 述 内 容 整 理 后 如 下 表 所 示 。 
游戏 的 流失 用 户 是 否 持 有 智能 手机 ? 非 智能 手机 用 户 流失 的 原因 
自然 流失 
自然 流失 





























在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 















































游戏 账号 迁 转 设 定 失败 导致 用 户 流失 的 假设 

基于 上 表 的 内 容 ， 经 过 和 《垂钓 乐园 》 游 戏 的 策划 和 开发 负责 人 开 
会 商讨 ， 我 们 怀疑 在 那些 因 更 换 智能 手机 而 流失 的 用 户 当中 ， 有 的 可 能 
是 因为 旧 的 游戏 账号 在 智能 手机 上 迁 转 设 定 失败 。 游 戏 账号 迁 转 设 定 模 





块 当时 开发 得 比较 仓促 ， 对 用 户 来 说 有 些 使 用 不 便 。 但 是 当时 这 个 模块 
在 发 布 后 并 没有 出 现 什 么 问题 ， 这 可 能 是 因为 当时 使 用 智能 手机 的 用 户 
大 都 属于 时 尚 人 士 ， 就 算 游戏 账号 的 迁 转 设 定 有 点 复杂 ， 他 们 也 能 顺利 
完成 。 我 们 将 上 面 的 内 容 添 加 到 表 里 ， 如 下 所 示 。 







































































用 户 流失 时 是 否 持 有 智能 手机 ? 非 智能 手机 用 户 流失 的 原因 
没 自然 流失 
自然 流失 
在 智能 手机 上 使 用 了 新 的 游戏 账号 
. 在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失败 
































如 果 我 们 所 面临 的 本 质问 题 是 上 表 中 最 后 的 “游戏 账号 迁 转 设 定 失 
败 ” 的 话 ， 就 必须 尽快 修复 这 个 问题 。 然 而 ， 由 于 这 个 模块 当时 开发 得 
比较 仓促 ， 因 此 现在 修复 起 来 预计 需要 耗费 相当 多 的 工时 。 而 现在 开发 
部 门 也 有 很 多 开发 任务 ， 很 难 抽出 时 间 。 
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因此 ， 现 在 做 问卷 调查 可 能 不 大 合适 ,我 们 需要 的 是 一 个 大 致 的 结 
， 并 尽快 预 佑 游戏 账号 迁 转 六 et 进而 采取 下 述 某 个 
nd 策 。 


@ 如 果 游 戏 账号 迁 转 设 定 失败 造成 了 很 大 的 影响 ， 那 就 需要 开发 部 
门 停止 正在 进行 的 工作 ， a 

@ 如 果 这 个 问题 的 影响 较 小 ， 就 只 需要 改进 一 下 针对 智能 手机 用 户 
的 商业 宣传 
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Ep 起 测 在 数据 不 包含 正解 的 
情况 下 收集 数据 


























用 户 自然 流失 和 账号 迁 转 设 定 失败 导致 的 用 户 流 失 有 何不 同 











下 面 我 们 来 整理 一 下 目前 为 止 的 事实 和 假设 。 现 在 我 们 所 知道 的 事 
实 有 以 下 两 点 。 


e@ 非 智 能 手机 用 户 量 的 减少 比 智能 手机 用 户 量 的 增加 要 大 
@ 当 用 户 从 非 智能 手机 更 换 到 智能 手机 后 ， 重 新 注册 游戏 账号 的 用 
户 数 很 少 ( 从 问卷 调查 中 得 出 的 结论 ) 


我 们 得 出 的 假设 如 下 。 


@ 从 非 智 能 手机 更 换 到 智能 手机 时 ， 游 戏 账号 的 迁 转 设 定 失败 导致 
了 用 户 流失 


为 了 验证 上 述 假设 ,我 们 需要 能 够 在 数据 上 区 分 用 户 的 自然 流失 和 
游戏 账号 迁 转 设 定 失败 而 导致 的 用 户 流失 。 那 么 什么 样 的 数据 才能 满足 
我 们 的 分 析 需 要 呢 ? 例如 ， 我 们 来 看 一 下 用 户 在 流失 之 前 的 访问 数据 。 
如 下 表 所 示 ， 自 然 流失 的 用 户 的 访问 天 数 是 在 逐渐 减少 的 ， 而 因 游戏 账 
号 迁 转 设 定 失 败 而 流失 的 用 户 是 在 某 天 后 就 突然 不 再 访问 了 。 


1 2 43 过 | | 6 | | ' 滞 
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自然 流失 的 用 户 x |IO|Ix|%|IO | | | 
游戏 账号 迁 转 设 定 失败 而 流失 的 用 户 |O OOIOIO1x 1 x 1|x 
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ee 但 也 符合 我 们 自身 使 用 
的 感觉 和 游戏 模块 开发 者 的 亲身 体会 ， 因 此 具有 较 高 的 可 信 度 。 

es a We a 如 下 表 所 示 。 具 体 来 
说 ， 就 是 使 用 1 月份 用 户 的 访问 数据 来 预测 用 户 在 2 月 份 是 自然 流失 
的 ， 还 是 因 游 戏 账号 迁 转 设 定 失 败 而 流失 的 。 


oy R-CODE 
@ DAU \97-0Y 





























1 | 2013 年 1 月 | 2013 年 1 月 1 《垂钓 乐园 》| 10061580 | 非 智能 手机 


























2 | 2013 年 1 2013 年 1 月 1 《垂钓 乐园 》| 10154440 | 非 智能 手机 




















3 | 2013 年 1 月 | 2013 年 1 月 1 日 | 《垂钓 乐园 》| 10164762 | 智能 手机 






































4 | 2013 年 1 月 | 2013 年 1 月 1 日 |《 委 钓 乐园 》| 10165615 | 非 智能 手 机 






































5 | 2013 年 1 月 | 2013 年 1 月 1 日 | 《垂钓 乐 园 ) | 10321356 | 非 智能 手 
















































































6 | 2013 年 1 2013 年 1 月 1 《垂钓 乐园 》| 10406653 | 智能 手机 





























不 存在 包含 正解 的 数据 


为 了 判断 用 户 是 自然 流失 的 还 是 因 游戏 账号 迁 转 设 定 失 败 而 流失 
的 ， 我 们 将 用 户 1 月 份 的 访问 情况 设置 为 自 变 量 ， 这 从 我 们 自身 的 角 
度 和 游戏 开发 人 员 的 角度 来 看 都 是 没有 问题 的 。 然 后 ， 将 “自然 流失 ” 
和 “ 因 账 号 迁 转 设 定 失败 而 流失 ”作为 因 变 量 ， 并 基于 之 前 的 表格 来 
思考 。 
















































































用 户 流失 时 是 否 持 有 智能 手机 ? 非 智能 手机 用 户 流失 的 原因 
没有 自然 流 
自然 流 
有 在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失 败 
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用 户 流失 之 前 的 访问 情况 大 致 可 概括 为 以 下 几 个 特征 。 





e@ 访问 次 数 较 少 
> 未 使 用 智能 手机 的 用 户 自 然 流失 
> 使 用 智能 手机 的 用 户 自然 流失 
@ 访问 次 数 较 多 
> 在 智能 手机 上 使 用 了 新 的 游戏 账号 
> 在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
> 在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失败 


如 上 所 示 ， 如 果 访 问 情 况 存 在 显著 的 差异 ， 那 么 我 们 就 能 够 构筑 判 
别 模型 。 但 是 ,我 们 是 否 能 够 顺利 地 获得 上 面 这 些 访 问 数据 呢 ?” 下 表 中 
整理 出 了 相关 的 情况 。 


用 户 流失 时 是 否 
持 有 智能 手机 ? 





非 智 能 手机 用 户 流失 的 原因 数据 是 否 存在 ? 


自然 流失 ( 没有 分 析 价值 
自然 流失 ( 没有 分 析 价值 
在 智能 手机 上 使 用 了 新 的 游戏 账号 

FE 机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
F 机 上 将 旧 的 游戏 账号 受 定 失败 













































































※ 灰色 行 表示 不 能 从 该 数据 中 识别 出 非 智能 手机 用 户 。 

由 上 表 可 知 ， 所 有 非 智 能 手机 的 流失 用 户 当 中 ,之 后 的 访问 情况 能 
够 被 识别 出 来 的 只 有 第 4 行 的 “在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 
成 功 ” 这 一 种 。 第 3 行 的 “在 智能 手机 上 使 用 了 新 的 游戏 账号 ”的 用 户 
数量 很 少 ， 而 我 们 最 想 知道 的 “在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 
失败 ”这 种 情况 的 相关 数据 实际 上 却 无 法 获得 。 也 就 是 说 ， 用 户 “自然 
流失 ”和 “ 因 游 戏 账号 迁 转 设 定 失败 而 流失 ”这 两 种 情况 在 数据 上 无 法 
区 分 ， 我 们 无 法 获得 所 需 的 包含 正解 的 数据 。 
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在 无 法 获得 包含 正解 的 数据 的 情况 下 进行 建 模 


基于 不 包含 正解 的 数据 进行 建 模 ， 这 在 学 术 界 属于 一 个 被 NG 的 问 
题 。 然 而 在 商业 领域 里 ， 建 模 所 需 的 数据 不 一 定 要 局 限于 包含 正解 的 完 
美 数据 。 像 本 案例 这 样 ， 在 无 法 获得 包含 正解 的 数据 的 情况 下 还 必须 得 
出 某 些 结论 的 情况 并 不 少见 。 

那么 ， 本 案例 这 种 情况 我 们 要 怎么 考虑 呢 ? 首先 ， 我 们 来 看 一 下 
“ 因 游 戏 账号 迁 转 设 定 失 败 而 流失 ”这 一 假设 很 严重 的 情况 。 参 考 之 前 
的 表格 ， 我 们 可 以 预知 ， 和 自然 流失 的 用 户 相 比 ， 因 游戏 账号 迁 转 设 定 
失败 而 流失 的 用 户 在 当月 的 访问 次 数 要 高 得 多 。 因 此 ， 如 果 “ 因 游戏 账 
号 迁 转 设 定 失败 而 流失 ”的 用 户 在 所 有 流失 用 户 中 所 占 比 例 较 高 的 话 ， 
那么 流失 用 户 和 游戏 账号 迁 转 用 户 在 1 月 份 的 访问 情况 就 不 会 存在 什么 
差异 。 而 如 果 访 问 情 况 没 什么 差异 的 话 ， 那 么 我 们 也 就 无 法 基于 访问 数 
量 构筑 判别 模型 。 反 之 ， 如 果 因 游戏 账号 迁 转 设 定 失败 而 流失 的 用 户 较 
少 的 话 ， 那 么 访问 次 数 的 差异 就 会 比较 显著 ， 也 就 能 够 顺利 地 构筑 判别 
模型 。 在 本 例 中 ， 如 果 能 构筑 判别 模型 ， 就 意味 着 令 人 晨 惧 的 游戏 账号 
迁 转 设 定 的 复杂 性 并 未 产生 影响 。 
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当 游戏 账号 迁 转 设 定 失败 的 用 户 当 游戏 账号 迁 转 设 定 失败 的 用 户 
较 多 时 ， 反 映 在 数据 上 就 是 访问 较 少时 ， 访 问 量 较 大 的 用 户 流失 
大 的 用 户 流失 较 多 ， 因 此 不 能 较 少 ， 因 此 可 以 得 到 判别 模型 

得 到 判别 模型 
从 别 模 @ 网 @ 
A : 
g A ”人 A i 
A @ 。 “账号 迁 转 
全“ 设 定 失败 





访问 量 : 访问 量 




















全 游戏 账号 迁 转 的 
全 流失 的 用 户 











图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 





7.3 ”在 数据 不 包含 正解 的 情况 下 收集 数据 | 135 








分 析 过 程 整理 
我 们 再 来 整理 一 下 分 析 的 整个 过 程 。 








@ 事实 
> 非 智能 手机 用 户 量 的 减少 比 智能 手机 用 户 量 的 增加 要 大 
> 当 用 户 从 非 智能 手机 更 换 到 智能 手机 后 ， 重 新 注册 游戏 账号 的 
用 户 数 很 少 ( 从 问卷 调查 中 得 出 的 结论 ) 
e 假设 
> 从 非 智能 手机 更 换 到 智能 手机 时 ， 游 戏 账号 的 迁 转 设 定 失败 导 
致 了 用 户 流失 
e@ 根据 分 析 方法 和 结果 得 出 的 解决 对 策 
> 使 用 用 户 访问 情况 数据 建立 “账号 迁 转 用 户 ” 和 “流失 用 户 ” 
的 判别 模型 
令 能 够 建立 有 效 的 模型 : 因 游 戏 账号 迁 转 设 定 失败 而 导致 的 用 
户 流失 的 影响 较 小 
> 改进 面向 智能 手机 新 用 户 的 商业 宣传 
令 不 能 建立 有 效 的 模型 : 很 可 能 是 因 游 戏 账 号 迁 转 设 定 失败 而 
导致 的 用 户 流失 的 影响 较 大 
> 简化 游戏 账号 的 迁 转 设 定 





























使 用 哪 种 模型 


在 本 例 中 ， 我 们 需要 建立 “账号 迁 转 用 户 ” 和 “流失 用 户 ” 的 判别 
模型 。 这 类 模型 的 数量 有 很 多 ， 但 在 本 例 中 ， 由 于 没有 包含 正解 的 数 
据 ， 因 此 我 们 就 没有 必要 使 用 诸如 SVM ( 支持 向 量 机 ) 或 者 神经 网 络 这 
类 精度 虽 高 但 计算 量 很 大 的 模型 ， 不 如 使 用 简单 的 方法 尽快 得 出 结 
于 是 本 例 中 我 们 决定 使 用 逻辑 回归 分 析 。 逮 辑 回 归 分 析 特 别 适合 因 变 量 
是 “ 买 /不 买 ”这 种 二 值 的 情况 ， 是 用 来 简单 把 握 数 据 大 致 倾向 的 最 合 
适 的 方法 。 
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用 曲线 来 拟 合 “ 账 号 迁 转 ”的 比例 


为 了 方便 介绍 逻辑 回归 分 析 ， 我们 将 “账号 迁 转 ” 表 示 为 1， 将 
“用 户 流失 ”表示 为 0。 设 横 轴 表示 “访问 次 数 "， 样 本 点 分 布 在 纵 轴 的 
0 和 1 两 个 值 上 ， 如 下 面 左 图 所 示 。 图 中 在 0 和 1 两 个 值 上 分 布 有 很 多 
点 ， 此 时 要 想 得 知 数据 的 倾向 性 比较 困难 。 我 们 尝试 使 用 第 6 章 中 介绍 
过 的 线性 回归 分 析 ， 得 到 如 下 面 右 图 所 示 的 结果 。 虽 然 得 到 了 一 条 直 
线 ， 但 它 依然 没有 反映 出 数据 的 特征 。 





1.00- 一 一 一 一 1.00- 一 -一 一 一 -一 一 一 一 一 .一 一 一 一 






































加 2 可 
HK 075. 075; > 
企 余 4 
全 1 ps 
0.50- 

一 0.50- a 一 
< 二 025 A 
失 0.25- 次 a 
om ee 人 
i ee 党 2 

5 10 15 20 25 5 10 15 20 25 

访问 量 访问 量 


线性 回归 分 析 原 本 就 不 适用 于 0/1 这 类 二 值 数据 。 这 是 因为 线性 回 
归 分 析 的 预测 值 有 可 能 小 于 0， 也 有 可 能 大 于 1。 针 对 0/1 这 样 的 数据 ， 
其 数值 本 身 并 不 重要 ， 关注 值 为 1 的 数据 所 占 总 体 的 比例 更 为 合适 。 下 
面 就 让 我 们 来 统计 一 下 上 述 数据 中 0 值 和 1 值 各 自 出 现 的 次 数 ， 结 果 如 


下 图 所 示 。 
L 
账号 迁 转 (1) 
075 1.00 
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访问 量 
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从 上 图 可 以 看 出 ,访问 量 较 小 时 值 为 1 的 数据 基本 不 存在 。 随 着 访 
问 量 的 增加 ， 值 为 1 的 数据 开始 逐渐 增多 ， 最 终 全 部 是 值 为 1 的 数据 ， 
而 值 为 0 的 数据 消失 了 。 这 种 比例 变化 的 关系 如 下 图 所 示 。 





账号 迁 转 的 概率 


-0.25 0.00 025 0.50 0.75 


访问 量 














针对 这 种 比例 的 数据 ， 我 们 试 着 用 一 种 名 为 逻辑 斯 蒂 曲 线 的 曲线 来 
进行 拟 合 ， 这 就 是 逻辑 回归 分 析 。 逻 辑 斯 带 曲线 是 一 种 S 型 的 曲线 ， 当 
横 坐 标 从 负 无 穷 增加 到 某 个 值 时 ， 纵 坐标 的 值 一 直 非 常 接近 0。 而 当 横 
坐标 大 于 该 值 之 后 ， 纵 坐标 的 值 开始 急速 向 1 逼近 。 在 这 之 后 又 开始 组 
慢 地 接近 于 1。 针 对 本 例 中 的 数据 ， 逻 辑 斯 带 曲 线 拟 合 后 的 结果 如 下 图 
所 示 。 































































































口 -一 
Ss 一 
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全 
~ 050- 
一 
= 
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000] 二 
5 10 15 20 25 
访问 量 





根据 上 图 可 知 ， 和 线性 回归 不 同 ， 逮 辑 回归 的 值 域 在 0 到 1 之 间 ， 
不 会 超出 这 个 范围 。 如 下 图 所 示 ， 在 这 条 曲线 上 ， 如 果 我 们 选取 “账号 
迁 转 ” 所 占 比例 为 0.5 时 的 访问 量 来 作为 阀 值 ， 那 么 比 该 访问 量 大 的 即 























图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


138 | 第 7 章 根据 过 去 的 行为 能 否 预测 当下 


可 判断 为 “账号 迁 转 ”， 而 比 该 访问 量 小 的 则 为 “用 户 流 失 ”"。 在 本 例 
中 ， 我 们 将 用 户 1 月 份 的 访问 量 作为 自 变量 ， 将 “账号 迁 转 ” 和 “用 户 
流失 ”作为 因 变 量 ， 通 过 逻辑 回归 分 析 来 验证 假设 。 
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想 075 a 
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信 0.25 二 : i 

出 户 流失 :账号 迁 转 

中 2 KE 

总 00 二 ee 
日 10 五 20 25 

访问 量 





数据 加 工 


我 们 需要 准备 逻辑 回归 分 析 所 需 的 数据 ， 如 下 所 示 。 


QD) 关于 用 户 是 否 迁 转 到 了 其 他 账号 的 数据 
(@@ 关于 用 户 是 否 每 天 访问 游戏 的 数据 ( 如 下 表 所 示 ) 





用 户 ID | P| 2 3J 目 
101 1 1 0 


























基于 上 表 的 数据 ,我们 将 其 加 工 成 适用 于 逻辑 回归 分 析 的 数据 


GD 关于 用 户 是 否 迁 转 到 了 其 他 账号 的 数据 的 整理 
首先 ， 我们 来 生成 关于 1 月 份 的 非 智能 手机 用 户 在 2 月 份 是 否 依然 
访问 游戏 的 数据 。 
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©e® 
We. Wo 
















































































, 1 月 1 月 
lL 非 智能 手机 | ，) | 非 智能 手机 户 D | 日 期 | 设备 | 2 月 访问 
DAU DAU MAU 
非 智能 
00 I 

/ 二 有 
2 月 2 月 
DAU MAU 



































@ 从 1 月 份 的 DAU 数据 中 提取 出 非 智 能 手机 的 DAU 数据 ， 然 后 将 
该 月 的 数据 合并 得 到 当月 的 MAU 数据 

@ 从 2 月份 的 DAU 数据 中 得 到 当月 的 MAU 数据 

@ 综合 上 述 两 部 分 数据 ， 生 成 关于 1 月 份 的 非 智能 手机 用 户 在 2 月 
份 是 否 进行 了 访问 的 标志 位 


上 述 步 又 生成 的 数据 如 下 表 所 示 。 


@ 1 月 份 的 非 智能 手机 用 户 在 2 月 份 是 流失 了 还 是 变 成 使 用 智能 手机 来 访 
问 了 
(a ) 1 月 份 的 非 智 能 手机 用 户 在 2 月 份 的 访问 情况 ( fp.mau1 ) 



























































1 397286 2013 年 非 智 能 手术 有 
2 471341 2013 年 非 知 能 手书 
3 503874 2013 年 非 智 能 手相 无 
4 512250 2013 年 非 智能 手电 二 
5 513811 2013 年 非 知 能 手提 | 


















































下 一 步 我 们 需要 区 分 2 月份 的 用 户 访问 是 继续 来 自 非 智能 手机 还 是 
来 自 智能 手机 。 
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户 账号 | 日 其 设备 2 月 访问 














全 二 
We 09 
2 月 


非 智能 手 














机 的 MA 
































2 月 非 智 能 | 2 月 智能 
































户 账号 | 日 其 设备 2 月 访问 | 三 机 访问 手机 访问 
100 1 非 智能 手机 有 No Yes 
101 1/ 非 智能 手机 No No 





























@ 和 上 一 步 的 处 理 方法 一 样 ， 我 们 先 从 2 月 份 的 DAU 数据 生成 当 
月 非 智能 手机 用 户 的 MAU 数据 和 智能 手机 用 户 的 MAU 数据 

@ 将 刚才 生成 的 数据 和 2 月 份 非 智 能 手机 的 MAU 数据 、 智 能 手机 
的 MAU 数据 相 结合 ， 生 成 区 别 2 月 份 的 访问 是 来 自 非 智能 手机 
还 是 智能 手机 的 标志 位 




















下 表 就 是 经 过 上 述 处 理 后 得 到 的 结果 。 
(b ) 在 ( a) 的 数据 后 添加 2 月 份 所 使 用 的 设备 信息 ( fp.maul1 ) 
2 月 2 月 非 智能 2 月 智能 手 





访问 ”手机 访问 机 访问 

















































































































1 | 397286 | 2013 年 1 非 智 能 手机 有 Yes 0 

2 | 471341 | 2013 年 1 非 智 能 手机 有 No Yes 

3 | 503874 | 2013 年 1 非 智 能 手机 无 No 0 

4 | 512250 | 2013 年 1 非 智 能 手机 有 Yes O 

5 | 513811 | 2013 年 1 非 智能 手机 有 Yes O 
此 时 ， 我 们 需要 建立 一 个 判别 模型 ， 用 来 判断 那些 非 智 能 手机 用 户 








下 个 月 是 会 通过 智能 手机 继续 访问 还 是 会 流失 。 在 这 个 过 程 中 ， 下 个 月 
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继续 使 用 非 智 能 手机 访问 的 用 户 数据 对 于 模型 的 建立 没有 什么 作用 ,我 


们 可 以 先 排 除 掉 。 
-© 
户 账号 | 日 期 | 设备 ”|2 月 访问 | ,2 月 非 智 | 2 月 智能 Wo 









































能 手机 访问 | 手机 访问 
100 1/1 非 智 能 手机 有 No Yes 
101 1 非 智 能 手机 无 No Oo 
102 1 非 智能 手机 有 Yes O 















































限定 为 “2 月 份 没 有 访问 ”或 者 “2 月 份 从 智能 手机 访问 ”的 数据 















































, 2 月 访问 | 2 月 非 智 | 2 月 智能 
赂 号 昌 期 | 设备。 |?2 月 沪 问 | 能 手机 访问 | 手机 访问 
100 1/1 非 智能 手机 有 No Yes 
101 1/1 | 非 知 能 于 机 | 无 No No 





























e 以 “2 月 份 没有 访问 ”或 者 “2 月 份 从 智能 手机 访问 ”为 条 件 对 
数据 进行 过 滤 


人 处理 后 的 数据 如 下 表 所 示 。 
(c) 以 灰色 部 分 为 条 件 过 滤 ( b ) 的 数据 ( fp.maut1 ) 


2 月 2 月 非 智能 2 月 智能 
访问 手机 访问 ”手机 访问 





471341 


























503874 





1073544 





1073864 
































1163733 





























这 样 就 得 到 了 逻辑 回归 分 析 所 需 的 数据 。 
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@) 关于 每 天 是 否 访问 游戏 的 数据 的 加 工 -全 








其 次 ， 我们 需要 对 每 个 用 户 每 天 访问 情况 的 数据 进行 加 工 处 理 。 现 
在 已 有 的 DAU 数据 如 下 图 左边 所 示 ， 是 以 日 期 、 用户 ID 为 属性 的 数 
据 。 我 们 要 将 这 份 数据 加 工 成 如 下 图 右边 所 示 ， 以 日 期 为 属性 。 










































































日 期 户 ID 
wa 100 
1/2 01 

















































































































1 397286 月 月 月 月 月 月 
2 471341 月 月 月 无 无 无 无 
3 503874 无 无 无 无 无 无 无 
4 512250 月 月 月 月 月 
5 513811 无 无 无 无 无 无 无 
6 638688 月 有 有 月 月 
























































最 后 ， 将 上 面 的 数据 和 中 中 生成 的 用 户 访问 情况 数据 合并 。 









































R-CODE 
( e ) 将 每 天 的 访问 情况 数据 (d ) 和 ( c ) 合并 
A SA SS 2 月 智能 手机 访问 
1 471341 有 有 有 有 月 无 泥 Yes 
2 503874 有 无 HE ZG 沪 无 No 
3 1073544 | 无 3 无 得 无 无 No 
4 1073864 | 无 无 无 区 可 6 i No 
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( 续 ) 
1/1 1/2 1/3 14 1/5 … 1/31 2 月 智能 手机 访问 
5 141463733:| 有 -| 有 | :无 "|. 无: |; 无 | 中 有 Yes 
6 | 1454629 | 无 | 无 | 无 | 无 | 无 |…| 有 No 






































经 过 上 述 处 理 ， 就 能 够 得 到 分 析 所 需要 的 数据 。 下 面 我 们 来 确认 一 
下 流失 的 用 户 (包含 因 账 号 迁 转 设 定 失 败 而 流失 的 用 户 ) 和 账号 迁 转 的 
用 户 分 别 有 多 少 人 。 最 后 我 们 统计 的 结果 是 有 190 名 用 户 流失 了 ， 而 账 
号 迁 转 的 用 户 有 62 名 ， 如 下 表 所 示 。 


~ 
® fp.maul \07-09/ 


用 户 流失 账号 迁 转 


※ 由 于 本 书 中 使 用 的 是 样本 数据 ， 因 此 各 项 的 数据 量 较 少 。 
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学 且 验证 是 否 能 够 建立 模型 




















建立 模型 和 验证 模型 


在 本 例 中 ， 我 们 基于 1 月 份 31 天 的 访问 数据 来 创建 一 个 计算 2 月 
份 账号 迁 转 概 率 的 模型 。 建 立 这 种 预测 模型 的 情况 下 ， 分 析 大 体 上 分 为 
两 个 部 分 : 建立 模型 和 验证 模型 。 首 先 ， 我 们 使 用 现 有 的 数据 来 进行 逻 
辑 回 归 分 析 并 建立 预测 模型 。 为 了 验证 所 得 到 的 预测 模型 的 可 信和 度 ， 我 
们 要 将 模型 的 预测 值 和 实际 数据 进行 对 比 。 本 例 中 模型 所 要 预测 的 是 
“下 月 账号 迁 转 的 概率 "， 预 测 值 大 于 0.5 时 表示 下 月 用 户 账号 发 生 迁 转 ， 
而 小 于 0.5 时 则 表示 用 户 流失 。 






































数据 
用 户 ID 日 2 日 31 日 
100 | 0 bi 
101 | 1 0 


















































验证 模型 


2 月 访问 情况 。 用户 流失 ( 预测 值 ) 账号 迁 转 ( 预测 值 ) 
用 户 流失 ( 实际 值 ) 
账号 迁 转 ( 实际 值 | 
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使 用 逻辑 回归 分 析 来 建立 模型 


下 面 我 们 将 通过 逻辑 回归 分 析 来 建立 模型 。 在 本 例 中 ， 自 变量 指 的 

是 过 去 1 个 月 (31 天 ) 的 访问 情况 ,但 是 这 样 变 量 的 个 数 有 些 过 多 。 为 

了 得 到 更 加 合适 的 模型 ， 需 要 按照 某 种 标准 对 变量 进行 选择 。 选 择 变量 

的 方法 有 很 多 种 ， 一 般 经 常 使 用 的 是 一 种 名 为 AIC ( 赤 池 信息 量 准则 ) 

的 指标 。 基 于 这 个 指标 来 选择 变量 并 生成 模型 ， 如 下 所 示 。 这 里 我 们 选 

择 了 变量 X1day(1/1)、X4day(1/4)、X5day(1/5)……: 
> 





@ 残 差 的 分 布 
最 小 值 第 1 四 分 位 点 第 3 四 分 位 点 
-1.9554 -0.4518 -0.2318 -0.0612 2.6946 








@ 回归 模型 的 系数 

系数 的 预 估 值 标准 误差 z 值 

常数 项 
X1day1 
X4day1 
X5day1 
X7day1 
X10day1 
X13day1 
X22day1 
X29day1 
X31day1 















































@ 赤 池 信息 量 准则 


AIC= 146.7 
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从 分 析 结 果 来 探讨 模型 


通过 观察 逻辑 回归 分 析 的 执行 结果 ， 我 们 发 现 X5day 和 X10day 的 
系数 为 负数 。 如 果 直 观 地 解释 ， 那 就 是 “如 果 5 日 和 10 日 没 来 访问 的 
话 ， 那 么 下 月 (2 月 ) 账号 就 会 发 生 迁 转 "， 意 思 有 些 莫 名 其 妙 。 出 现 这 
种 情况 是 由 于 自 变 量 之 间 存 在 着 相关 性 ， 我 们 把 这 种 现象 称 为 多 重 共 线 
性 。 当 出 现 多 重 共 线 性 时 ， 上 述 关于 系数 的 讨论 就 没什么 意义 了 。 而 且 
这 种 情况 下 得 到 的 模型 很 不 稳定 ， 无 法 进行 长 期 预测 。 一 般 来 说 此 时 就 
需要 做 进一步 的 变量 选择 以 及 增加 交互 作用 项 等 ， 以 便 得 到 再 现 性 更 强 
的 模型 。 然 而 ， 在 本 例 中 ， 是 否 能 够 建立 模型 才 是 我 们 所 关注 的 ， 所 以 
暂时 不 需要 进行 上 述 工作 。 这 次 我 们 需要 建立 的 模型 并 不 一 定 要 长 期 有 
效 ， 只 要 能 够 在 本 例 中 使 用 即 可 ， 也 就 是 所 谓 的 一 次 性 模型 。 由 于 从 一 
开始 我 们 就 没有 包含 正解 的 数据 ， 因 此 就 不 用 再 拘泥 于 模型 的 精度 或 者 
是 再 现 性 。 综 上 ， 我 们 建立 的 模型 至 少 在 本 案例 中 不 存在 使 用 上 的 问 
题 ， 我 们 用 它 来 继续 进行 下 面 的 工作 。 


























使 用 建立 的 模型 进行 预测 

接着 ,我 们 使 用 之 前 建立 的 模型 进行 预测 。 模 型 的 预测 值 是 “账号 
迁 转 的 概率 "。 当 这 个 值 大 于 0.5 时 我 们 取 1 ( 账号 迁 转 )， 小 于 0.5 时 则 
取 0 (用户 流失 )， 生 成 如 下 数据 。 i 








1/31 实际 值 概率 






































1 | 471341 | 有 有 | 有 .| 移 无 | Yes | 0.43 0 
2 | 503874 | 有 | 无 | 无 | 无 | 元 无 No |0.11 0 
3 | 1073544 | 无 | 无 | 无 | 无 | 无 无 No | 0.00 0 
4 |1073864 | 无 | 无 | 无 | 无 | 无 无 No | 0.03 0 
5 | 63733 | 有 .省 有 | 过 川 无 省 殉 有 | Yes | 0.39 0 
6 | 1454629 | 无 .| 无 | 无 | 无 | 无 有 No |0.10 0 
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利用 上 述 数据 ， 我 们 来 对 模型 进行 验证 。 确 认 预 测 值 和 实际 值 之 间 
差异 大 小 的 方法 有 很 多 ， 这 里 我 们 使 用 下 表 所 示 的 交叉 统计 表 。 
7 











2 月 使 用 情况 用 户 流失 ( 预测 值 ) 账号 迁 转 ( 预测 值 ) 


用 户 流失 ( 实际 值 ) 
账号 迁 转 ( 实际 值 ) 


此 例 中 ， 经 由 导 辑 回归 分 析 建 立 的 模型 中 预测 为 “1”( 账 号 迁 转 ) 
的 用 户 分 布 在 “账号 迁 转 (预测 值 ” 那 一 列 ， 而 实际 发 生 账号 迁 转 的 
用 户 分 布 在 “账号 迁 转 ( 实际 值 ” 那 一 行 。 

由 上 表 可 知 ， 模 型 预测 为 “流失 ”的 用 户 有 180 名 ， 而 这 180 名 用 
户 确 实 不 再 来 了 ， 模 型 预测 “账号 迁 转 ”的 42 名 用 户 也 确实 迁 转 了 账 
号 。 预 测 的 准确 率 为 (180 + 42) / (180 + 10 + 20 + 42) = 88%。 这 个 准确 
率 比 较 高 ， 基 本 可 以 认为 我 们 得 到 了 一 个 值得 信赖 的 预测 模型 。 然 而 在 
实际 使 用 中 ， 直 接 使 用 上 述 模 型 是 不 行 的 ， 我 们 需要 通过 交叉 检验 的 方 
法 来 做 进一步 的 验证 。 






















































































根据 预测 结果 推测 用 户 群 


该 模型 中 预测 值 为 “1”( 账号 迁 转 ) 而 实际 流失 的 用 户 有 10 名 ， 
可 以 认为 这 些 人 是 因为 账号 迁 转 失败 而 流失 的 。 也 就 是 说 ， 我 们 根据 过 
去 的 访问 情况 推测 出 用 户 应 该 会 将 账号 迁 转 设 定 后 继续 使 用 ， 但 实际 上 
这 群 流失 的 用 户 由 于 账号 迁 转 失败 而 不 再 访问 游戏 了 。 

因此 ， 在 观察 了 实际 的 访问 情况 之 后 (参考 7.7 节 )， 我们 可 以 断定 
这 次 的 模型 符合 实际 的 客观 情况 ， 是 值得 信赖 的 ， 并 且 也 证 明了 “账号 
迁 转 设 定 失败 导致 用 户 流失 ”的 影响 较 小 这 个 假设 是 正确 的 。 
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解决 对 策 


在 本 例 中 ， 我 们 的 分 析 流 程 如 下 所 示 。 

















@ 事实 
> 非 智能 手机 用 户 量 的 减少 比 智能 手机 用 户 量 的 增加 要 大 
> 当 用 户 从 非 智能 手机 更 换 到 智能 手机 后 ， 重 新 注册 游戏 账号 的 
用 户 数 很 少 〈 从 问卷 调查 中 得 出 的 结论 ) 
e 假设 
> 从 非 智能 手机 更 换 到 智能 手机 时 ， 游 戏 账 号 的 迁 转 设 定 失败 导 
致 了 用 户 流失 
@ 基于 分 析 方法 和 结果 而 采取 的 解决 对 策 
> 使 用 用 户 访问 情况 数据 来 建立 “账号 迁 转 用户 ” 和 “流失 
户 ”的 判别 模型 
令 能 够 建立 有 效 的 模型 : 因 游 戏 账号 迁 转 设 定 失败 而 导致 的 用 
户 流 失 的 影响 较 小 
> 改进 面向 智能 手机 新 用 户 的 商业 宣传 
令 不 能 建立 有 效 的 模型 : 因 游戏 账号 迁 转 设 定 失败 而 导致 的 用 
户 流 失 的 影响 较 大 
富 简化 游戏 账号 的 迁 转 设 定 



























































二 














我 们 的 假设 是 “在 智能 手机 上 游戏 账号 迁 转 设 定 失败 导致 流失 的 用 
户 很 多 "， 而 根据 分 析 的 结果 ， 因 账号 迁 转 设 定 失败 而 流失 的 用 户 占 整 
体 流失 用 户 的 比例 很 小 。 因 此 ， 我 们 决定 按照 最 初 的 讨论 方案 ,改进 面 
向 智能 手机 新 用 户 的 商业 宣传 。 
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在 本 章 中 ， 我 们 进行 了 逮 辑 回归 分 析 。 下 面 我 们 来 总 结 一 下 本 章 中 
数据 分 析 的 成 本 ， 如 下 表 所 示 。 
在 本 例 中 ， 相 比 于 数据 分 析 和 建立 模型 ， 前 期 的 数据 收集 和 加 工 花 
费 了 更 多 的 精力 。 而 在 实际 的 商业 领域 ， 在 数据 收集 阶段 经 常会 碰 到 不 
存在 带 正解 的 数据 的 情况 ， 或 者 是 没有 适用 于 分 析 方 法 的 数据 而 需要 我 
们 自己 去 加 工 的 情况 。 读 者 通过 本 章 的 内 容 就 可 以 对 实际 数据 分 析 中 的 
困难 有 所 了 解 。 
分 析 流 程 第 7 章 中 数据 分 析 的 成 本 
现状 和 预期 
发 现 问题 
数据 的 收集 和 加 了 
数据 分 析 
解决 对 策 
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人 详细 的 R 代 码 




















读 入 CSV 数据 


SS 
# 读 和 数据 Wy 


dau <- read.csv("section7-dau.csv", header = T, stringsAsFactors = F) 
head (dau) 





!  ### region month region day app name user id device 


| 撞 1 2013-01 2013-01-01 game-02 10061580 FP 
i 村 2 2013-01 2013-01-01 game-02 10154440 FP 
| 村 3 2013-01 2013-01-01 game-02 10164762 SP 
| 析 4 2013-01 2013-01-01 game-02 10165615 FP 
| 村 5 2013-01 2013-01-01 game-02 10321356 FP 
## 6 2013-01 2013-01-01 game-02 10406653 SP : 





关于 用 户 是 否 进行 了 账号 迁 转 的 数据 的 整理 


我 们 先 整理 出 从 非 智能 手机 更 换 到 智能 手机 并 进行 了 账号 迁 转 设 定 
的 用 户 数据 。 
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R-CODE 
# AD WW 





maue = unouveem (da (unreclonamoneb od ve em 

# FP MAU 

fp.mau < Unique (dauldausdevice=="FP", GC("region month", "asvice 
were ay ly 

# SP MAU 

Spamau vniaque (davlaqausdevice==uSpwee regronimonthu eevee 


wen 


输入 uniqgue (AA[，c ("XX","YY", "22")]) 后 ， 数 据 aa 中 就 只 保 
留 了 属性 XX、YY 和 zz 所 在 的 行 。 如 果 xx 的 值 不 同 ， 而 属性 YY 和 zz 
的 值 相同 ， 则 双方 的 数据 都 会 保留 下 来 。 如 果 属 性 Xx、YY 和 zz 的 值 全 
部 相同 ， 则 会 被 视 为 重复 的 数据 而 被 删除 ， 只 保留 其 中 一 个 。 

在 这 里 我 们 根据 每 天 的 访问 数据 DAU 来 生成 每 月 的 访问 数据 。 由 于 
每 天 都 来 访问 的 用 户 会 有 31 份 数据 被 保存 下 来 ， 为 了 将 这 些 数据 合成 1 
份 ， 我 们 忽略 属性 region_ day 的 重复 信息 ， 并 使 用 unique 函数 ， 得 
到 region month、device 和 user id 这 3 个 属性 的 值 都 唯一 的 数据 。 

通过 执行 unique (AA [AAS$SXX="xxx"，c("X","Y", "2")] )， 我 们 可 
以 从 数据 Aa 中 提取 属性 XX 的 值 为 xxx 的 数据 ， 并 在 此 基础 上 得 到 属性 
x、Y 和 Zz 的 值 不 发 生 重复 的 数据 。 


3 
# 分 别 获取 1 月 份 和 2 月 份 的 数据 7-03) 





























































































































fpsmaul .toamaubtpmau egonamonthe -uo 0 
fpemau2e = tomawbto maus regonameonthe. -on 0 
sp.maul <- sp.maul[sp.mau$region month == "2013-01", ] 
sp.mau2 <- sp.maul[sp.mau$region month == "2013-02", ] 

# 1 月 份 的 非 智能 手机 用 户 在 2 月 份 的 访问 情况 

mau$is access <- 

fp.maul <- merge(fp.maul, mau[maus$region month == "2013-02", 
cusermidu aCe Dri) 
Fpemaulss aaccesslis na(fp maul saccess) < "0 


head (fp.maul) 








在 这 里 ， 我 们 将 非 智 能 手机 用 户 ( FP，Feature Phone ) 和 智能 手机 
j 户 (SP，SmartPhone ) 的 数据 各 自分 开 ， 并 生成 按 月 统计 的 用 户 数 
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据 。 在 此 基础 上 ， 我 们 将 数据 分 为 上 月 (1 月 ) 和 本 月 (2 月 ) 两 部 分 ， 
由 此 得 到 数据 fp.maul、fp.mau2、sp.maul、sp.mau2。 

接着 我 们 输入 mau$is access <- 1, 将 mau 数据 的 is.access 属 
性 全 部 设置 为 “1”。 基 于 这 份 数据 ， 再 和 其 他 数据 合并 ,我们 就 可 以 判 
断 用户 在 2 月 份 是 否 也 来 访问 过 。 这 样 在 mau 数据 里 就 保存 了 1 月 和 2 
月 都 曾 访问 过 游戏 的 用 户 数据 。 

我 们 知道 在 数据 fp .maul 中 保存 的 是 非 智 能 手机 用 户 1 月 份 的 数 
据 。 将 数据 mau 中 2 月 份 的 数据 提取 出 来 ， 和 fp .maul 合并 ， 这 样 就 
能 够 判断 在 1 月 份 进行 过 访问 的 非 智能 手机 用 户 在 2 月 份 是 否 继续 访问 了 。 
最 后 通过 命令 fp.maul$is access [is.na(fp.maul8$is access)]<- 0 
将 合并 之 后 出 现 的 缺失 值 (Na ) 替换 为 “0”。 

经 过 上 述 处 理 ， 我 们 得 到 了 数据 fp .maul。 






































@ fp.maul 

user id region _ month device is access 
1 397286 2013-01 FP 出 
2 471341 2013-01 FP 1 
3 503874 2013-01 FP 0 
4 512250 2013-01 FP 入 
5. 513811 2013-01 FP 入 
6 638688 2013-01 FP 了 














另外 ， 根 据 上 述 的 数据 fp .mau2 中 2 月 份 用 户 的 使 用 情况 ， 我 们 可 
以 区 分 出 2 月 份 来 访问 的 用 户 中 有 多 少 是 一 直通 过 非 智能 手机 来 访问 的 


用 户 。 























Ge 
# 1 月 份 访问 过 游戏 的 非 智 能 手机 用 户 在 2 月 份 是 否 是 继续 通过 非 智能 手机 来 访问 的 WD 
Fpmau2s to < 

Fpymaul mecoe fosnaul to mauol ee (usermton rs to 

By = 



































Sl os EL 
fp.maul$is fplis.na(fp.maul$is fp)] <- 0 
head (fp.maul) 














性 全 部 设置 为 “1”。 








通过 fp.mau2$is fp <- 1 将 fp.mau2 中 的 is fp 属 





上 
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然后 再 将 fp .maul 和 fp .mau2 两 个 数据 合并 。 如 果 用 户 在 这 两 个 月 都 是 用 
非 智能 手机 访问 的 ， 那 么 合并 后 is_fp 属性 的 值 为 “1”， 和 否则 便 是 代表 
数据 为 空 的 “NA"。 又 因为 “NaA” 不 便于 后 续 处 理 ， 所 以 我 们 通过 
fp.maul8sis fp[is.na(fp.maul8$is fp)]<- 0 将 “NA ”置换 为 “0”。 





于 

















@@ fp.maul 


## user id region _ month device is access|is fp 


## 1 397286 2013.=01 EP 到 1 
## 2 471341 2013.-01 EP 1 0 
## 3 503874 2013.=01 FP 0 0 
## 4 512250 2013.=01 EP 1 1 
## 5 513811 2013.=01 EP 1 1 
## 6 638688 2013-01 EP 1 1 


然后 ， 我 们 区 分 出 那些 在 1 月 份 通过 非 智能 手机 访问 而 在 2 月 份 变 
成 通过 智能 手机 来 访问 的 用 户 。 


R-CODE 
# 1 月 份 访问 过 游戏 的 非 智 能 手机 用 户 在 2 月 份 是 否 是 通过 智能 手机 来 访问 的 


sp.mau2$is sp <- 1 

fpsmaule "merae (tp na pmnaua csET Ss 
by — usernnad a 

Eonavulsesep ll na ma ssp 

head (fp.mau1l) 
























































sp .mau2 中 保存 的 是 2 月 份 通过 智能 手机 来 访问 的 用 户 数 据 。 这 里 
我 们 需要 增加 一 个 is_sp 属性 ， 并 将 其 全 设置 为 “1”。 然 后 再 将 这 份 数 
据 和 fp .maul 数据 合并 。 这 样 一 来 ， 在 fp .maul 中 就 增加 了 2 月 份 智 
能 手机 用 户 的 数据 。 合 并 后 的 结果 如 下 所 示 。 
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@@ fp.maul 

| user id region month device is access is fplis sp 

: 1 397286 2013-01 FP 1 1 0 : 
: 2 471341 2013-01 FP 1 0 1 : 
: 3 503874 2013-01 FP 0 0 0 : 
: 4 512250 2013-01 FP 1 1 0 : 
| 5 513811 2013-01 FP 1 1 0 : 
| 6 638688 2013-01 FP 1 1 0 : 














接着 我 们 要 从 这 份 数 据 中 提取 出 逻辑 回归 分 析 所 需要 的 数据 。 我 
们 从 上 一 步 得 到 的 fp .maul 数据 中 提取 出 is_access==0 (2 月 份 没 有 
访问 的 用 户 ) 或 者 is_sp==1 (2 月 份 通过 智能 手机 访问 的 用 户 ) 的 部 
分 。 其 中 记号 “|” 表 示 “ 或 ”的 关系 ， 也 就 是 两 个 条 件 只 要 满足 其 一 


入 莹 田 
即 可 的 意思 。 


## 1 月 份 通过 非 智 能 手机 访问 但 2 月 份 没有 访问 的 用 户 ， 或 者 通过 智能 手机 访问 的 用 户 
Foemaul FoNmavNlteo maul aceess onto mu rp = 
head (fp.maul) 



















































































全 fp.maul 

# user id region month device is access is fp is sp 

| 禁 2 471341 2013-01 FP 1 0 1 全 从 之 前 的 | 
| 樟 3 503874 2013-01 FP 0 0 0 数据 中 过 | 
; ## 11 1073544 2013-01 FP 0 0 0 滤 掉 “is_ | 
i 村 12 1073864 2013-01 FP 0 0 0 access=1,! 
| ## 14 1163733 2013-01 FP 1 0 1 is_sp=0” 

1 和 内 窑 

1 ## 15 1454629 2013-01 FP 0 0 0 ”的 内 容 























这 样 我 们 就 得 到 了 可 用 于 逻辑 回归 分 析 的 数据 fp .maul。 
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关于 是 否 每 天 访问 游戏 的 数据 的 整理 


R-CODE 
library (reshape2) way 


fp.daul <- dauldausdevice == "FP" & dausregion month == "2013-01", |] 
fp.daul$is access <- 1 


fp.daul.cast <- dcast (fp.daul, user id ~ region day, value.var = 
vsBaccessi tuneoton (mas enaracter (engtn()y) 


names (fp.daul.cast) [-1] <- paste0("X", 1:31, "day") 
head (fp.daul .cast) 


我 们 从 aau 数据 中 提取 2013 年 1 月 非 智 能 手机 用 户 的 数据 ， 然 后 
使 用 dcast 函数 进行 整理 ， 得 到 fp .daul .cast 数据 。 由 于 数据 中 属性 
的 名 称 各 不 相同 ， 因 此 我 们 输入 names (fp.daul.cast)[-1]<- 
paste0 ("Xx",1:31,"day") ， 在 除 第 一 行 以 外 的 属性 上 添加 属性 名 。 借 
助 paste0 将 其 后 的 内 容 紧密 合并 在 一 起 ， 此 处 paste0 将 X 和 day 合 
在 一 起 组 成 一 个 属性 名 "Xx*day" ， 其 中 中 间 的 “*” 为 一 个 1 ~ 31 的 数 。 
这 样 就 可 以 得 到 下 面 的 数据 fp .daul .cast。 














本 
本 























® fp.dau1.cast 


| # user id Xlday X2day X3day X4day X5day X6qay … X29day X30day X31lday ! 

| 样 1 397286 1 1 1 1 1 1 “1 1 1 

| 机 2 4134 1 1 1 1 0 0 0 0 0 |! 

| 机 3 503874 1 0 0 0 0 0 0 0 0 |! 

| 机 4 512250 1 1 1 1 1 1 1 1 机 
样 5 513811 0 0 0 0 0 0 1 0 1 
## 6 638688 1 1 1 LL 1 1 al 1 1 








我 们 将 这 个 数据 和 之 前 得 到 的 用 户 访问 数据 fp .maul 合并 起 来 。 
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R-CODE 
i 07-08 
# 将 2 月 份 的 访问 数据 和 智能 手机 用 户 数据 合并 ?08 























pdaulscaSE = mergeuEpRdani cas oma eemid sn 
sp 

y= eee) 
head (fp.daul .cast) 


经 过 上 述 处 理 ， 我 们 就 能 够 得 到 下 面 的 数据 fp .daul .cast。 在 这 
份 数据 中 ， 对 于 那些 1 月 份 访问 过 的 非 智 能 手机 用 户 ， 标 记 为 “0” 的 用 
户 为 流失 用 户 ， 标 记 为 “1” 的 用 户 为 2 月 份 通过 智能 手机 来 访问 的 用 户 。 











@@ fp.dau1.cast 


## user id Xxlday X2day X3day X4day X5day X6qay X7day … X31lday is_sp 


| 样 1 471341 1 1 1 于 0 0 0 0 1 | 
| 禁 2 503874 1 0 0 0 0 0 0 0 0 | 
| 机 31073544 0 0 0 0 0 0 0 0 0 | 
| 样 41073864 0 0 0 0 0 0 0 0 0 | 
振 51163733 1 1 0 0 0 0 0 0 1 
振 6 1454629 0 0 0 0 0 0 0 0 0 
R-CODE 
table (fp.daul.cast$is_ sp) \97-09) 
@@ ip.maul 
ee 共计 190 + 62 = 252 名 用 户 的 数据 
1 共 十 = 4 
: 昱 190 62 加 


通过 table 函数 ， 我 们 可 以 统计 出 符合 要 求 的 数据 。 经 确认 ， 标记 
为 “0” 的 用 户 有 190 名 ,标记 为 “1” 的 用 户 有 62 名 ， 共 计 252 名 。 


基于 逻辑 回归 分 析 建 立 模 型 
Femloon tepl(olmGissp oat odauleast 三 | 于 07-104 


family = binomial) ) 
summary (fit.1ogit) 
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Call: 


-1] ) 











Deviance Resi 


### Min 
## -1.9554 -0.4 
## 


## Coefficients 


## ( Intercept ) 
## Xldayl 
## X4dayl 
## XS5dayl 
## X7dayl 
Xl0dayl 
Xl3dayl 
X22dayl 
X29dayl 
X31ldayl 











### Null devi 
## Residual devi 





glm ( formula = 
Xl3day + X22day + X29day + X31lday, family = binomial, data 


Signif. codes: 


(Dispersion parameter for 


= fp.daul.cast | ， 


duals: 
1Q Median 
517 -0.2318 





ance: 281.20 
ance: 126.73 


所 @ 赤 池 信息 量 准则 


## Number of Fisher Scoring iterations: 6 


is sp ~ Xlday + X4day + X5day + X7day + Xl0day + 


3Q Max | 中 残 差 的 分 布 
-0.0612 2.6946 





## Estimate Std. Error z Value Pr (>|z|) 
-3.604 0.427 -8.44 <26=]6 守 炎 内 
533 0.572 2.68 0.0073 ** 
了 了 0.642 2.76 0.0057 ** 

=1.035 0.762 -1.36 0.1744 
.700 OTL 2.39 0, 

R65 0.942 -2.84 0.0045 ** 现 全 但 
373 0.755 1.82 0.0689 . 的 概要 
623 0.638 2.54 QOLLO. 阐 

2 00L 0.648 Sd O0020 *» 
“3 0.814 号 13 335 * be 
全 下 家 省 二 人 全 全 4 0 |- 





binomial family taken to be 1) 


on 251 degrees of freedom 


0168 * ©@ 系数 的 | 
on 242 degrees of freedom | 


函数 来 进行 逻辑 回归 分 析 。 在 该 函数 的 使 用 过 程 中 ， 


我 们 使 用 glm 函 


需要 将 选项 family 设 为 bi 





nomial， 才 能 顺利 进行 逻辑 回归 分 析 。 





另外 ， 我 们 还 使 用 了 step 函数 。step 函数 以 赤 池 信息 量 准则 


(AIC ) 为 标准 ， 


能 够 对 模型 中 自 变 


量 的 增 减 进 行 自 动 的 探寻 和 选择 。 在 








本 次 的 逻辑 回归 分 析 中 ， 我 们 就 使 用 了 step 函数 来 建立 模型 。 
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利用 生成 的 模型 来 进行 预测 


利用 逻辑 回归 分 析 所 得 到 的 模型 ， 我 们 来 计算 出 账号 迁 转 设 定 的 概 
率 。 在 RR 语言 中 ,可 以 使 用 fitted 函数 来 获取 预测 值 。 


# 智能 手机 账号 迁 转 设 定 的 概率 Wy 


epioauleastSo prob < round(teted(r leat 



































# 预测 在 智能 手机 上 是 否 进行 了 账号 迁 转 设 定 
Fpvdaulcast pred < felse(fo daul east Serob > 0057 TI 0) 








head (fp.daul.cast) 





我 们 将 预测 值 填 人 fp .daul.cast 数据 的 prob 属性 中 。 为 了 接 下 
来 的 模型 可 信和 度 分 析 ， 我 们 使 用 了 ifelse 也 数 。 当 预测 值 大 于 0.5 时 ， 
就 认为 这 个 账号 发 生 了 迁 转 设 定 ， 并 将 其 设置 为 “1”"。 而 当 预 测 值 小 于 
0.5 时 ， 则 认为 这 个 账号 的 用 户 已 经 流失 了 ， 因 此 将 其 设置 为 “0”。 








® fp.dau1.cast 


# user id xlday X2day X3day X4day X5day X6dqay … X31lday is_ sp prob pred 
# 1 471341 I 于 1 1 0 Qe 0 1 0.43 0 
# 2 503874 1 0 0 0 0 0 0 0 O01 0 
# 3 1073544 0 0 0 0 0 0 0 0 0.00 0 
# 4 1073864 0 0 0 0 0 0 0 0 0.03 0 
# 5 1163733 I 于 0 0 0 0 0 L039 0 
# 6 1454629 0 0 0 0 0 0 0 0 010 0 








到 目前 为 止 ， 我 们 收集 了 分 析 所 需 的 每 个 用 户 账号 的 各 种 信息 。 我 
们 首先 统计 了 上 个 月 每 一 天 的 用 户 访问 情况 ， 如 果 当 天 有 访问 则 设置 为 
“1”， 没 有 访问 则 设置 为 “0”。 然 后 计算 属性 is_sp 的 值 ， 再 计算 得 到 
prob 预测 值 ( 账号 迁 转 设 定 的 概率 )， 并 以 0.5 为 基准 将 属性 pred 设 定 
为 离散 值 0 和 1。 

这 里 我 们 使 用 最 后 一 列 属性 pred 来 对 模型 的 可 信 度 进行 验证 。 确 
认 预 测 值 和 实际 值 之 间 差 异 的 方法 有 很 多 ， 一 个 简单 的 方法 就 是 使 用 
table 函数 来 进行 统计 。 
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R-CODE 
# 预测 信和 实际 什 \07-12/ 


Beale paoaue a ee Cresspu neg 
## pred 


is_sp 为 2 月 份 实际 的 账号 迁 转 设 定 情况 ， 
### 0 180 10 pred 为 基于 1 月 份 的 数据 所 预测 的 账号 迁 转 设 定 情况 


在 本 例 中 ,经 由 人 逻辑 回归 分 析 生 成 的 模型 中 预测 值 为 “1” ks 
迁 转 设 定 ) 的 用 户 归 属于 “账号 迁 转 设 定 ( 预测 值 )” 那 一 列 ， 
i 千 转 设 定 的 用 户 归 在 了 “账号 迁 转 设 定 ( 实际 值 ” . 

一 行 。 

可 以 看 出 ， 模 型 预测 为 “流失 ”的 用 户 有 180 名 ， 而 这 180 名 用 户 
确实 不 再 来 了 ， 模 型 预测 “账号 迁 转 ” 的 42 名 用 户 也 确实 迁 转 了 账号 。 
预测 的 准确 率 为 (180 + 42) / (180 + 10 + 20 + 42) = 88%。 这 个 准确 率 比 
较 高 ， 基 本 可 以 认为 我 们 得 到 了 一 个 值得 信赖 的 预测 模型 。 


根据 预测 结果 来 推测 用 户 群 


有 10 名 用 户 在 模型 中 的 预测 结果 为 “1”( 账号 迁 转 设 定 )， 而 实际 
上 为 流失 的 用 户 。 根 据 过 去 的 访问 情况 来 推断 ， 这 些 用 户 应 该 进行 了 账 
号 迁 转 设 定 ， 然 而 实际 上 他 们 却 属 于 流失 的 用 户 群体 。 

下 面 我 们 来 看 一 看 这 些 用 户 的 实际 访问 情况 。 

































































Fpndaumeast i Epdaumeaetltpeaul east sse ep da 
cease peed = 
head (fp.daul.castl [order (fp.daul.cast1ls$prob, decreasing = T), |] 





在 fp.dqaul.castl 中 保存 了 is_sp=1 (用 智能 手机 访问 过 的 用 户 ) 
并 且 预 测 值 为 “1” 的 用 户 。 然 后 使 用 order 函数 order (fp .danul. 
castl$prob， decreasing = T), 将 fp.daul.cast1l 数据 按照 prob 
列 的 值 由 大 到 小 的 顺序 来 排列 。 
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数据 中 预测 值 和 实际 值 都 为 “1” 的 用 户 确实 是 仍 在 频繁 地 访问 
游戏 。 


@@ fp.dau1.cast1 
# user id Xxlday X2day X3day X4day X5day X6qay X7day X8day X9day Xl0day 
## 137 24791702 1 0 1 0 1 业 1 
## 138 24791702 1 
## 22 5526146 1 
## 44 9567562 和 
## 45 9567562 1 
## 86 16557842 1 
# Xllday Xl2day Xl3day Xl4day Xl5day Xl6day Xl7day Xl8day Xl9day X20day 
## 137 0 
138 0 





X21day X22day X23day X24day X25day X26day X27day X28day X29day X30day 
































X31day is sp prob pred 
137 1 1.00 
.00 
"39 











接着 我 们 来 看 一 看 那些 预测 值 为 “1” 而 实际 值 为 “0” 的 用 户 的 访 
问 情况 。 





Feioavulieasto < od easttp due por du 
Castspred ==70) 
neadl(foydaul eastollorder(to aul eat rob dereasamo = Tl 
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@@ fp.dau1.cast2 


| ## user id Xlday X2day X3day X4day X5day X6qay X7day X8day X9day Xl0day : 
i 机 109 19432099 1 1 1 1 0 于 | 
| 振 195 41590801 0 0 0 0 0 0 0 0 0 0 | 
| 机 204 43451947 1 1 1 1 1 0 1 1 : 
: ## 198 42276142 1 1 E 1 1 0 1 | 
| 样 28 6147878 1 0 0 1 1 1 1 | 
| ## 210 46285446 0 0 0 0 1 1 1 0 : 
拓 # Xllday Xl2day Xl3day Xl4day Xl5day Xl6day Xl7day Xl8day Xl9day X20day 























: # 109 1 0 1 1 0 : 
i 振 195 0 0 0 0 0 0 0 0 0 | 
i 振 204 0 0 0 0 0 0 0 0 到 
| 樟 198 0 0 1 1 1 1 
i 振 28 1 1 1 1 1 
i 香 210 0 0 1 0 1 0 0 0 | 
| ### X21lday X22day X23day X24day X25day X26day X27day X28day X29day X30day | 
i 振 109 0 0 0 0 0 0 0 | 
| # 195 0 0 0 0 0 0 0 | 
| 拓 204 0 0 0 1 0 0 1 1 0 | 
| 振 198 1 1 1 i 1 1 0 | 
| 振 28 1 1 0 0 0 0 | 
: ## 210 0 1 1 1 0 1 0 | 
: 提 # X31day is_sp prob pred ! 
: 捧 109 0 00.85 1 : 
i 振 195 00.85 1 
i 振 204 0 00.79 1 | 
i 振 198 全 | 
樟 28 0 00.67 1 
樟 210 0 00.61 1 


这 里 我 们 也 只 提取 出 符合 条 件 的 用 户 数据 并 保存 在 fp .dau1l .cast2 
中 ， 然 后 使 用 order 函数 将 数据 按照 prob 值 由 大 到 小 的 顺序 排列 出 来 。 

我 们 发 现 ， 数 据 中 “1” 出 现 的 次 数 很 多 ， 这 表明 大 多 数 用 户 在 1 
月 份 还 是 很 频繁 地 访问 游戏 的 。 这 10 名 用 户 在 这 段 时 间 对 游戏 仍 有 很 
强烈 的 兴趣 ， 不 太 可 能 是 因为 兴趣 变 淡 了 而 不 再 访问 游戏 。 

接着 我 们 来 看 一 看 那些 预测 值 和 实际 值 都 为 “0” 的 用 户 的 访问 情 
况 ， 这 类 用 户 已 经 不 再 参与 游戏 了 ， 我 们 来 确认 一 下 他 们 之 前 的 访问 情况 。 

可 以 看 出 ， 这 些 用 户 已 经 不 怎么 来 访问 了 ， 他 们 对 游戏 的 兴趣 在 逐 
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渐 降 低 ， 因 此 也 就 慢 慢 地 不 再 来 访问 了 。 

通过 上 述 内 容 可 以 看 出 ， 本 例 中 建立 的 模型 的 可 信 度 较 高 ， 也 就 是 
说 ， 当 初 设立 的 假设 “账号 迁 转 设 定 失败 而 导致 用 户 流失 ”的 影响 较 
小 ， 从 实际 人 数 上 来 看 也 只 有 10 名 用 户 。 


























Epnoaul easte tondamneeast tp vl oa nse = 0 to da 
cast$pred == 0, ] 
head (fp.daul.cast3 [order (fp.daul.cast3$prob), ]) 


@@ fp.dau1.cast3 














| user id Xlday X2day X3day X4day X5day X6day X7day X8day X9day Xl0day | 
3 107354 0 0 0 0 0 0 0 0 0 1 | 
| 11 2541741 0 0 0 0 0 0 0 0 0 | 
| 150 27249550 0 0 0 下 下 1 0 0 0 下 
| 243 60725457 0 0 0 0 0 0 0 0 0 LE 
| 71 13967453 0 0 0 0 1 0 0 0 0 0 
| 88 16601600 0 0 0 0 1 0 0 0 0 0 |! 
| Xllday Xl2day Xl3day Xl4day Xl5day Xl6day Xl7day Xl8day Xl9day X20day | 
: 3 0 0 0 0 0 0 0 0 0 0 | 
: 11 0 0 0 0 0 0 0 0 0 0 | 
| 150 0 1 0 0 0 0 0 0 0 0 | 
| 243 0 0 0 0 0 0 0 0 0 0 |! 
: 71 0 0 0 0 0 0 0 0 0 0 | 
| 88 0 0 0 0 0 0 0 0 0 0 | 
| X21day X22day X23day X24day X25day X26day X27day X28day X29day X30day | 
: 3 0 0 1 1 0 0 0 0 bi 
: 而 0 0 0 0 0 0 0 0 0 0 | 
: 150 0 0 0 0 0 0 0 0 0 0 | 
| 243 0 0 0 0 0 0 0 0 0 0 | 
| 71 0 0 0 0 0 0 0 0 0 0 | 
: 88 0 0 0 0 0 0 0 0 0 0 | 
| X31day is_sp prob pred | 
| 3 0 00.00 0 | 
| 11 0 00.00 0 | 
| 150 0 00.00 0 | 
: 243 0 00.00 0 : 
| 71 0 00.01 0 | 
| 88 0 00.01 0 | 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


[分 析 应 用 ] 篇 
第 8 章 
案例 @ 一 聚 类 


应 该 选择 什么 样 的 目标 用 
尸 群 


社交 游戏 的 用 户 分 类 

我 们 发 现 《 黑 猫 拼图 》 游 戏 的 用 户 数量 在 经 历 了 一 段 时 间 的 
持续 增长 后 ， 最 近 几 个 月 亭 清 不 前 。 之 前 公司 都 是 以 扩 
展 新 用 户 为 重点 ， 而 今后 也 需要 关注 如 何 服务 好 已 有 的 游戏 
户 。 因 此 ， 我 们 需要 利用 数据 分 析 来 了 解 现 有 的 用 户 有 何 
特点 ， 那 么 我 们 该 怎么 做 呢 ? 
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希望 了 解 用 户 的 特点 
































将 重点 由 新 用 户 转移 到 已 有 用 户 上 


我 们 在 传统 媒体 上 投放 《 黑 猎 拼图》 游戏 的 广告 后 ， 用 户 人 数 持续 
增长 ,但 最 近 儿 个 月 却 一 直 停 滞 不 前 。 到 目前 为 止 ， 由 于 流入 的 新 用 户 
数量 较 多 ， 我 们 一 直 都 是 以 新 用 户 为 主要 目标 来 开展 运营 活动 的 ， 而 今 
后 也 需要 关注 如 何 服务 好 已 有 的 游戏 用 户 ， 游 戏 的 策划 和 运营 部 门 提出 
了 这 样 的 要 求 。 

为 了 更 好 地 服务 已 有 的 游戏 用 户 ， 非 常 重要 的 一 点 就 是 了 解 已 有 用 
户 的 特点 ， 于 是 我 们 可 以 利用 数据 分 析 来 完成 这 一 工作 。 和 之 前 的 案例 
不 同 ， 本 例 中 我 们 所 面临 的 问题 并 没有 清晰 地 呈现 在 面前 ， 因 此 很 难 确 
定案 例 的 现状 和 预期 。 这 里 我 们 可 以 认为 现状 是 “目标 用 户 群 不 明确 ”， 
而 预期 是 “明确 目标 用 户 群 ”。 








































































































预期 
明确 目标 
' 群 
现状 少 吕 
标 用 户 群 
不 明确 
第 8 章 的 现状 和 预期 
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:殉情 基于 行为 模式 的 用 户 





Lu 





























通过 已 有 的 市 场 细 分 无 法 明确 目标 用 户 群 


为 了 了 解 “市 场 是 由 哪些 人 组 成 的 ”， 我 们 可 以 使 用 “市 场 细 分 ” 
( Segmentation ) 的 方法 。 过 去 “市 场 细 分 ”的 方法 通常 是 使 用 用 户 的 属 
性 信息 来 进行 分 类 。 例 如 ,“ 本 公司 的 主要 目标 用 户 是 20 ~ 30 岁 的 女 
性 ”就 是 使 用 年 龄 段 来 对 用 户 进 行 分 类 。 然 而 ， 这 样 的 分 类 方法 太 过 人 简 
单 ， 并 不 能 充分 地 反映 游戏 用 户 群 体 的 特点 。 同 时 ， 这 样 的 用 户 分 类 粒 
度 太 粗 ， 我 们 无 法 根据 用 户 的 喜好 来 采取 相应 的 运营 措施 。 另 外 ， 在 用 
户 玩 游戏 的 时 间 点 原本 就 会 出 现 游戏 策划 阶段 选 定 的 目标 用 户 群 ， 所 以 
得 出 的 结果 也 是 理所当然 的 。 例 如 ， 如 果 我 们 在 游戏 的 策划 阶段 就 
将 “20 ~ 30 岁 的 男性 ” 选 定 为 我 们 的 目标 用 户 群 ,那么 即使 在 市 场 细 
分 后 得 出 了 “20 多 岁 的 男性 用 户 很 多 ”这 样 的 结论 ， 这 个 结论 也 是 已 知 
的 了 。 
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常见 的 市 场 细 分 
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能 否 根据 用 户 的 行为 模式 来 进行 用 户 分 类 





本 例 中 我 们 进行 市 场 细 分 的 目的 并 不 仅仅 是 单纯 对 用 户 进行 分 类 ， 
而 是 方便 今后 实施 运营 策略 。 像 之 前 所 说 的 “20 ~ 25 岁 的 男性 用 户 ” 这 
样 的 市 场 细 分 就 不 能 为 今后 的 运营 策略 提供 参考 。 

因此 ， 我 们 考虑 通过 用 户 在 游戏 中 的 行为 模式 来 进行 市 场 细 分 ， 具 
体 如 下 所 示 。 





@ 经 常 参 与 战斗 的 用 户 

@ 经 常 主动 约 战 他 人 的 用 户 

@ 经 常 协助 他 人 的 用 户 

@ 经 常 和 他 人 发 消息 互动 的 用 户 





也 就 是 说 ,我 们 的 方法 是 利用 用 户 经 常 进 行 的 行为 来 理解 用 户 的 喜好 。 
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根据 行为 日 志 来 进行 市 场 细 分 


男 外 ， 我 们 可 以 参照 各 个 用 户 类 别 的 KPI (重要 业绩 评价 指标 ) 得 
到 KPI 高 的 用 户 类 别 和 KPI 低 的 用 户 类 别 在 行为 上 有 何 差异 ， 由 此 来 讨 
论 应 该 如 何 促使 用 户 的 行为 变化 来 提升 KPI。 











将 分 析 的 结果 与 运营 策略 相 结 合 
基于 上 面 的 假设 ， 我 们 和 游戏 的 策划 部 门 进行 了 讨论 ， 对 方 的 意 


见 是 : 














图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 




















8.2 ”基于 行为 模式 的 用 户 分 类 | 167 


® 这 样 的 市 场 细 分 可 以 方便 我 们 根据 不 同 的 用 户 类 别 采取 相应 的 运 
营 策略 





另外 ,我 们 在 讨论 的 过 程 中 还 得 到 了 两 个 新 的 观点 : 


e@ 在 游戏 内 部 各 种 活动 的 排行 榜 上 ， 不 同 用 户 类 别 的 差异 也 很 大 
e@ 排 名 靠 前 的 用 户 需要 重点 对 待 ， 我 们 可 以 从 此 处 着 手 


积极 参与 游戏 活动 的 用 户 和 对 游戏 不 热心 的 用 户 确实 大 不 相同 。 男 
外 ， 由 于 《 黑 猎 拼图》 游戏 的 销售 额 主要 来 自 于 排名 靠 前 的 用 户 ， 因 此 
充分 了 解 这 些 用 户 的 特点 是 非常 重要 的 。 

在 本 例 中 ， 我 们 就 以 排名 靠 前 的 用 户 为 分 析 对 象 ， 利 用 这 些 用 户 的 
行为 模式 来 进行 市 场 细 分 。 
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: 敢 测 j 也 主 成 分 作为 目 变 量 
来 使 用 
































探讨 分 析 所 需 的 数据 


下 面 我 们 来 整理 一 下 事实 和 假设 ， 并 探讨 如 何 收 集 和 加 工分 析 所 需 
的 数据 。 





1. 排名 靠 前 的 用 户 产 生 的 销售 额 占 总 销售 额 的 比例 很 高 。 ( 事实 ) 
2. 根据 用 户 的 行为 模式 ， 可 以 基于 “喜欢 参与 战斗 的 用 户 ”“ 喜 欢 


交流 的 用 户 ” 等 用 户 喜好 进行 市 场 细 分 ( 假设 ) 
3. 根据 各 个 用 户 类 别 来 采取 相应 的 运营 策略 ( 解决 方案 ) 


按照 上 述 流程 ， 我 们 以 排名 午前 的 用 户 群 体 为 对 象 ， 将 行为 模式 相 
似 的 用 户 划分 在 同一 组 里 ， 并 对 不 同 的 组 采取 不 同 的 运营 策略 。 首 先 ， 
为 了 找 出 用 户 的 行为 模式 ， 我 们 需要 有 用 户 的 行为 数据 。 在 《 黑 猫 拼 
图 》 游 戏 中 ， 用 户 有 如 下 行为 。 





























e@ 主动 参与 战斗 

@ 发 送 消息 

@ 发 出 /接收 救援 请 求 
e 打败 敌 方 首领 





用 户 的 这 些 行为 都 以 共同 的 格式 保存 在 行为 日 志 当 中 。 我 们 有 两 份 
行为 日 志 ， 其 中 一 份 是 以 秒 为 单位 来 保存 的 ， 而 另 一 份 是 每 天 的 行为 统 
计数 据 。 在 本 例 中 ,我 们 没有 必要 使 用 以 秒 为 单位 的 日 志 ， 使 用 每 天 的 
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行为 统计 数据 就 足够 了 。 这 份 数据 如 下 所 示 。 其 中 列 Al ~ A54 表示 各 
种 行为 的 编码 ， 这 些 行为 的 编码 和 行为 日 志 名 称 是 通过 另外 一 份 数据 表 
来 管理 的 。 

















R-CODE R-CODE 


> 
® Action 
































































































































访问 日 期 应 用 名 “… A52 A53 
1 ee 9 《 黑 猫 拼图 》| 654133 | 0 | 0 11011010 146 
2 i lb, 《 黑 猫 拼图 》| 425530 | 0 | 0 10 11041017 
3 | ?20 | 《 黑 猫 拼图》 | 709596 | 0 | 0 | o | | o | o | > 
4 1 《 黑 猫 拼图 》| 525047 | 0 | 2 10 1…|1 010 |109 
5 0 bs 《 黑 猫 拼图 》| 796908 | 0 | 0 10 |1010 1 64 













































































另外 ,我 们 还 需要 知道 各 个 用 户 类 别 的 KPI 数据 。 在 本 例 中 ， 我 们 
需要 5 月 到 10 月 的 ARPU 数据 ( Average Revenue Per User, 平均 消费 
金额 ) 和 平均 访问 天 数 的 数据 。 这 两 份 KPI 数据 可 以 通过 下 面 的 数据 计 
算得 出 。 








































































































@@ DAU 
访问 日 期 
1 2013 年 5 月 《 黑 猫 拼 图 》 802761 
2 2013 年 5 《 黑 猫 拼图 》 795239 
3 2013 年 5 《 黑 猫 拼图 》 413381 
4 2013 年 5 月 《 黑 猫 拼图 》 721356 
5 2013 年 5 月 1 日 《 黑 猫 拼图 》 776853 
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@ DPU 
访问 日 期 应 用 名 用 户 ID 消费 金额 

1 | 2013 年 10 《 黑 猫 拼图 》 106832 2858 
2 | 2013 年 10 月 1 日 《 黑 猫 拼图 》 106832 571 
3 | 2013 年 10 《 黑 猫 拼图 》 476345 81 
4 | 2013 年 10 月 1 日 《 黑 猫 拼图 》 476345 243 
5 | 2013 年 10 《 黑 猫 拼图 》 885585 405 
















































































数据 加 工 


将 上 述 两 份 数据 进行 分 类 后 就 可 以 算出 两 份 KPI 数据 了 。 





R-CODE R-CODE 








































































































份 'ID 消费 金额 | 访问 天 数 
0 100 0 22 
0 200 200 25 
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@ 以 log_data 和 user_id 作为 key 来 合并 两 份 数 据 
@ 没有 消费 的 记录 用 0 来 标识 
e@ 分 别 按 月 和 按 每 个 用 户 来 统计 总 的 消费 金额 和 访问 天 数 


访问 月 份 消费 金额 访问 天 数 




























































































将 生成 的 数据 和 用 户 分 类 结果 合并 ， 就 能 够 计算 出 每 个 用 户 类 别 的 
ARPU 和 平均 访问 天 数 了 。 


讨论 分 析 方法 


现在 我 们 来 讨论 如 何 使 用 上 述 行为 数据 将 相似 的 用 户 划分 到 同一 组 
里 ,这 种 情况 下 适合 使 用 聚 类 的 方法 。 在 本 例 中 ， 我们 使 用 一 种 被 称 为 
“k-means” 的 聚 类 方法 。 这 种 方法 的 处 理 步 又 如 下 所 示 。 

















中 选 定 k 个 初始 聚 类 中 心 点 

@) 计算 各 个 数据 点 和 中 中 k 个 类 的 中 心 点 的 距离 ， 并 将 每 个 数据 点 
分 类 到 离 它 最 近 的 那个 中 心 点 的 类 中 

(3) 重新 计算 每 个 类 的 中 心 点 

(4 循环 执行 @ 和 (@) 直 至 中 心 点 不 再 发 生变 化 
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中 选 定 k 个 初始 聚 类 中 心 点 ( 女 ) @ 将 每 个 数据 点 分 类 到 离 它 最 近 的 
那个 中 心 点 的 类 中 



















TO ee 
OQ OO. XO 
\ 六 
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SS O SE 



































@ 循环 执行 CD 和 (3 直至 中 心 点 不 再 发 生 
变化 
































定义 “排名 靠 前 的 用 户 ” 


在 本 例 中 ,我 们 分 析 的 对 象 是 “排名 靠 前 的 用 户 ”， 然 而 这 个 “ 排 
名 徘 前 的 用 户 ” 具 体 是 指 排 在 前 多 少 位 的 用 户 呢 ? 是 指 前 100 名 用 户 ? 
还 是 前 500 名 用 户 ? 还 是 前 20% 的 用 户 呢 ?在 本 例 中 ,我 们 试 着 从 数据 
导出 答案 。 

排行 榜 是 由 用 户 的 排行 榜 得 分 来 决定 的 。 我 们 将 用 户 按照 排行 榜 得 
分 由 高 到 低 描绘 在 坐标 轴 上 ， 就 得 到 了 第 3 章 介 绍 的 “ 窜 律 分 布 "。 根 
据 排 行 榜 得 分 的 分 布 ， 可 以 将 用 户 分 为 3 类 : 重度 用 户 、 中 度 用 户 和 轻 
度 用 户 。 其 中 重度 用 户 和 中 度 用 户 一 起 被 定义 为 “排名 靠 前 的 用 户 ”。 


R-CODE 
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那么 如 何 将 用 户 分 成 这 3 类 呢 ? 可 以 使 用 之 前 介绍 的 k-means 方 
法 ， 将 排行 榜 得 分 作为 变量 ， 把 用 户 分 为 3 个 类 。 






































































































































根据 排行 榜 得 分 来 进行 聚 类 限定 重度 或 中 度 的 用 户 类 
户 ID | 排行 榜 得 分 | … 户 ID | 排行 榜 得 分 | … | 类 
100 100 可 00 100 … | 轻 度 户 ID | 排行 榜 得 分 | … | 类 
300 200 可 300 200 … | 轻 度 可 i : : 
a es 本 本 有 rl 700 10000 | 重度 
700 10000 |… 700 10000 | … | 重度 1000 2000 … | 中 度 
1000 2000 1000 2000 … | 中 度 
























































聚 类 后 我 们 得 到 了 3 个 类 ， 如 下 图 所 


Sl 








anking point 























USer 


j 户 ”和 “中 度 用 户 ” 这 两 类 作为 














在 这 3 个 类 当中 ， 我 们 将 “ 习 
分 析 的 对 象 。 





由 
tm 
洒 

















R-CODE 


Tee 
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排除 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 


行为 日 志 里 保存 着 用 户 所 有 行为 的 记录 ， 可 能 存在 各 个 行为 之 间 相 
互 影响 的 情况 。 另 外 ， 由 于 用 户 有 的 行为 并 没有 发 生 ， 因 此 值 为 0 的 行 
为 记录 有 很 多 。 所 以 我 们 实际 上 拿 到 的 数据 并 不 会 像 教科 书 中 的 数据 那 
样 工整 。 在 这 种 情况 下 ， 很 有 可 能 无 法 执行 k-means 方法 ， 因 此 我 们 要 








































































































将 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 删除 掉 。 R-CODE 

> 

A2| …|[IA53|A54 A2 | … [A54 

10 加 区 10 2 

50 2 | 3 50 3 | 

| 

20 4|5 20 5 | 

数值 大 都 为 0 相关 性 较 高 的 变量 





利用 主 成 分 分 析 进 行 正 交 变 


到 目前 为 止 ， 我 们 将 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 都 删 
除了 ， 并 得 到 了 工整 的 数据 。 然 而 ， 虽 然 删 除了 相关 性 较 高 的 变量 ， 但 
还 是 存在 相关 性 较 弱 的 变量 。 虽 然 此 时 直接 执行 聚 类 方法 也 是 可 行 的 ， 
但 我 们 还 是 希望 自 变 量 能 够 尽量 相互 正 交 。 

于 是 ,我 们 使 用 主 成 分 分 析 的 方法 变换 得 到 没有 相关 性 的 主 成 分 
值 。 例 如 ， 如 下 面 的 左 图 所 示 ， 对 于 “参与 战斗 的 次 数 越 多 ， 对 战 敌 方 
首领 的 次 数 也 就 越 多 ”这 样 的 数据 ， 我 们 需要 找 出 能 将 数据 散布 最 大 化 
的 轴线 ， 如 下 面 中 间 的 图 所 示 。 我 们 将 这 根 轴线 作为 第 1 主 成 分 ， 并 将 
和 第 1 主 成 分 正 交 的 轴线 作为 第 2 主 成 分 ,然后 旋转 这 两 根 轴线 ， 使 得 
第 1 主 成 分 成 为 横 轴 ， 第 2 主 成 分 成 为 纵 轴 ， 如 下 面 右边 的 图 所 示 。 这 
样 我 们 就 将 原 数据 变换 成 了 没有 相关 性 的 数据 。 








了 
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第 2 主 成 分 ”第 1 主 成 分 




























































































































































































战 

到 OD 口 敌 

名 | o Coco 方 

领 | oO 领 

的 的 

次 次 

数 ”参与 战斗 的 次 数 数 参与 战斗 的 次 数 








主 成 分 分 析 示 意图 





对 之 前 获得 的 行为 日 志 数据 进行 主 成 分 分 析 后 ， 获 得 了 下 面 的 数据 。 


























R-CODE 

ee 

PC18 “PC19 

425530 | 3.2613 |-0.63291-2.1274|-0.2657|-1.8300| 0.4262 | 1.4312 | … |-1.0741| 0.2789 
776120 | 4.0961 | 1.8439 | -0.3289| 0.7821 | 1.6862 |-0.6565| 0.1899 | … | 0.1395 | -0.5239 
276197 | -0.8029| -0.3686| 0.1383 | -0.7093| 0.1941 | 0.1815 | 1.5204 | … | 0.1074 | 0.0249 
221572 |-3.5390| 0.2427 | 1.0547 | -0.4889|-0.9875|-0.3297| 0.3507 | … | 0.5941 | 0.1645 
692433 |-1.3360| 0.2114 |-0.1752| 0.1639 |-0.8298|-0.8614| 0.0972 | … | 0.2270 | -0.1740 









































经 过 上 面 的 处 理 ， 我 们 就 获得 了 可 用 于 进行 聚 类 的 数据 。 
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有 而 进行 聚 类 

















需要 设置 多 少 个 类 


在 得 到 可 用 于 进行 聚 类 的 数据 之 后 ， 我 们 就 可 以 对 数据 进行 聚 类 











了 。 但 在 这 之 前 还 有 一 个 问题 没有 解决 ， 那 就 是 需要 确定 设置 多 少 个 
类 。 虽 说 k-means 是 一 种 非常 方便 的 方法 ， 但 分 析 者 需要 确定 类 的 个 
数 。 在 本 例 中 ,我 们 的 目的 是 要 了 解 《 黑 猫 拼 图 》 游 戏 用 户 的 特点 ， 因 
此 如 果 用 户 类 的 个 数 过 多 则 结果 会 难以 解释 ， 也 就 达 不 到 我 们 的 目的 。 








于 是 ,我 们 首先 和 游戏 策划 的 负责 人 进行 了 沟通 


户 类 解释 起 来 会 比较 方便 。 


























， 并 确定 了 3 ~ 6 个 用 


在 确定 了 用 户 类 的 数量 的 范围 后 ， 我 们 会 对 该 范围 内 的 类 个 数 逐 一 
进行 聚 类 ， 最 终 选取 最 合适 的 类 个 数 。 但 是 ， 如 何 确 定 最 合适 的 数量 
呢 ? 方法 有 很 多 ， 此 处 我 们 把 能 使 所 有 类 中 第 1 主 成 分 的 散布 最 小 的 类 









































的 个 数 作为 最 合适 的 数量 。 从 结果 来 看 ， 类 个 数 为 5 时 散布 最 小 ， 因 此 


我 们 就 设置 5 个 类 。 
类 个 数 





R-CODE 


> 
4 5 





第 1 主 成 分 的 散布 


第 1 主 成 分 和 第 2 主 成 分 的 分 布 如 下 图 所 示 。 
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上 R-CODE 
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中 日 
- 日 
a + ee 
re + 中 十 回 回回 四 
好 a A se 3 在 | 
》 * | a FH 十 日 昌 
A 过 
WN ee 
0 Dre ee 
0 A eet 条 ta | as.factor(cluster) 
3 < 好 ve Mw 二 二 日 * 1 
本 RC | a2 
忆 人 站 sh + 旦 日 a3 
a 让 a 六 
人 + 4 
= 可 日 5 
nn 


PC1 





在 雷达 图 上 进行 类 特征 的 可 视 化 





在 能 够 进行 聚 类 后 ， 接 着 就 要 研究 类 的 特征 了 。 通 常 我 们 只 是 通过 
类 的 一 些 平均 值 来 观察 其 特征 ， 其 实 还 可 以 通过 一 种 叫 作 雷 达 图 的 图 形 
来 观察 类 之 间 的 差异 ， 如 下 图 所 示 ， 类 之 间 的 差异 一 目 了 然 。 


R-CODE R-CODE 
= 
2 
3 


















救援 他 人 的 次 数 : 





被 救援 的 次 数 “ 参与 战斗 的 次 数 


类 5 


对 战 敌 方 首领 的 次 数 类 2 


各 个 用 户 类 的 行为 特征 
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通过 观察 上 图 ,我 们 发 现 类 3 和 类 5 比较 特殊 。 类 3 和 其 他 类 
相 比 ,“ 救 援 他 人 的 次 数 ” 和 “被 救援 的 次 数 ” 比 较 少 ， 而 “级 别 ” 和 
“参与 游戏 的 次 数 ” 的 值 特别 高 。 根 据 这 些 特征 ， 我 们 可 以 认为 类 3 的 
用 户 更 倾向 于 自力 更 生 。 反 过 来 看 类 5, “救援 他 人 的 次 数 ” 和 “被 救援 
的 次 数 ”都 很 高 ， 所 以 我 们 认为 这 个 类 的 用 户 经 常 互 相 帮 助 。 同 样 
地 ， 我 们 可 以 根据 类 的 特征 对 剩 下 的 几 个 类 进行 解释 ， 所 有 类 的 情况 如 
下 所 示 。 





1. ( 排名 靠 前 的 用 户 当 中 ) 轻 度 用 户 
s 和 其 他 类 的 用 户 相 比 所 有 的 属性 值 都 偏 低 
2. 经 常 帮助 他 人 的 用 户 4) 
祖 救援 他 人 的 次 数 较 多 
3. 自力 更 生 的 用 户 
> 救援 和 被 救援 的 次 数 较 少 ， 参 与 游戏 的 次 数 较 多 
4. 经 常 帮助 他 人 的 用 户 @@ 
全 救援 他 人 的 次 数 较 多 
5. 经 常 互相 帮助 的 用 户 
> 救援 他 人 和 被 救援 的 次 数 都 很 多 


分 析 每 个 类 的 KPI 


最 后 我 们 来 计算 每 个 类 的 ARPU 和 平均 访问 天 数 ， 最 后 的 结果 如 下 
表 所 示 。 -CoDE 


08-16 
访问 天 数 gen 
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可 以 看 出 ， 类 5 ( 经常 互相 帮助 的 用 户 ) 的 ARPU 和 平均 访问 天 数 
相 比 其 他 类 是 最 高 的 ， 类 2 和 类 4 (经 常 帮助 他 人 的 用 户 ) 相 比 于 类 3 
(自力 更 生 的 用 户 ) 在 这 两 个 指标 上 的 值 也 要 高 ， 由 此 我 们 可 以 得 知 
“是 否 经 常 帮助 他 人 或 被 他 人 帮助 ”这 一 点 非常 重要 。 男 外 ， 类 1 ( 轻 度 
用 户 ) 的 ARPU 值 非常 高 ， 这 促使 我 们 重新 审视 这 个 类 中 用 户 的 特点 。 
相 比 于 之 前 给 出 的 轻 度 用 户 的 解释 ， 我 们 觉得 这 个 类 的 用 户 更 可 能 是 那 
些 为 了 登 上 排行 榜 顶 端 而 正在 努力 的 用 户 。 
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解决 对 策 



































探讨 促使 用 户 互 相 帮 助 的 策略 
对 排名 靠 前 的 用 户 进行 聚 类 后 ， 我 们 得 到 以 下 结论 。 


@ 排 名 靠 前 的 用 户 群 体 可 以 分 为 5 个 类 别 
@ 经 常 互 相 帮助 的 用 户 的 KPI 较 高 

















基于 上 述 分 析 结 果 ， 在 和 游戏 策划 部 门 沟通 之 后 ， 我 们 决定 首先 尝 
试 促 使 游戏 用 户 之 间 互 相 帮助 的 策略 。 





使 市 场 细 分 结果 的 汇报 常态 化 


在 采取 以 促使 用 户 行为 变化 为 目标 的 策略 时 ， 基 于 用 户 行为 的 市 场 
细 分 也 可 以 用 来 确认 该 策略 是 否 有 效 。 在 本 例 中 ,我 们 采取 了 促使 游戏 
用 户 互相 帮助 的 策略 ， 而 实际 上 互相 帮助 的 用 户 是 否 有 所 增加 ， 我 们 可 
以 通过 市 场 细 分 来 定量 地 确认 。 

因此 ， 我 们 将 之 前 的 分 析 设 置 为 每 天 自动 执行 ， 并 将 分 析 结果 以 邮 
件 的 方式 发 送 给 相关 负责 人 。 基 于 这 种 反馈 ， 形 成 “策略 商讨 一 执行 一 
改善 ”这 样 一 套 完整 的 流程 。 
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小 结 








在 本 章 中 ,我 们 对 数据 进行 了 聚 类 分 析 。 由 于 真正 的 商业 数据 并 不 
是 像 教 科 书 中 的 数据 那样 工整 ， 因 此 我 们 在 实际 进行 分 析 之 前 需要 对 数 
据 进行 前 期 的 处 理 。 在 本 例 中 ,我 们 把 没有 什么 信息 量 的 变量 和 相关 性 
较 高 的 变量 过 滤 掉 ， 并 使 用 主 成 分 分 析 进 行 正 交 变 换 完成 了 前 期 的 数据 

















处 理 。 








最 终 我 们 基于 用 户 的 行为 模式 将 用 户 分 成 5 个 类 别 ， 明 确 了 用 户 的 
村 点 。 另 外 ， 为 了 将 PDCA (重复 执行 计划 (Plan ) 一 实施 (Do) 一 评 
价 〈Check ) 一 改善 (Art) 这 4 步 的 商业 验证 循环 ) 付 诸 实施 ， 我 们 将 
本 例 中 的 分 析 设 置 成 自动 执行 ， 并 稳定 地 发 送 邮 件 汇报 ， 形 成 了 “策略 
商讨 一 执行 一 改善 ”这 样 一 套 完整 的 流程 。 


分 析 流 程 








现状 和 预期 





第 8 章 中 数据 分 析 的 成 本 





发 现 问题 








数据 的 收集 和 


加 工 








数据 分 析 





解决 对 策 
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生成 用 于 读 入 数据 的 函数 
首先 ， 生 成 用 于 获取 指定 日 期 数据 的 函数 。 
R-CODE 


08-01 
library (plyr) Wy 


library (foreach) 


readTsvDates <- function(base.dir, app.name, date.from, date.to) { 
date.from <- as.Date (date.from) 
date.to <- as.Date(date.to) 
dates <- seq.Date(date.from, date.to, by = "day'") 
x <- ldply (foreach(day = dates, combine = rbind) gdo% { 
read.csv (sprintf ("%s/%s/$s/data.tsv", base.dir, app.name, day), 
header = T, 
sep = "\t", stringsAsFactors = F) 


然后 ， 生 成 用 于 获取 其 他 各 个 数据 的 专用 函数 。 这 样 做 的 好 人 处 在 
， 可 以 提高 数据 的 可 读 性 ， 而 且 万 一 获取 数据 的 路 径 发 生 了 变动 ， 也 
只 需 修 改 相 应 的 函数 即 可 。 





ee 


R-CODE 
# 读 入 DAU 数 据 的 函数 


readDau <- function(app.name, date.from, date.to = date.from) 
data <- readTsvDates ("sample-data/section8/daily/dau", app. 
name, date.from, date.to) 
data 
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# 读 入 DPU 数 据 的 函数 

readDpu <- function(app.name, date.from, date.to = date.from) { 
data <- readTsvDates ("sample-data/section8/daily/dpu", app. 
name, date.from, date.to) 
data 


# 读 入 行为 数据 的 函数 

readActionDaily <- function(app.name, date.from, date.to = date. 
Enema 
data <- readTsvDates ("sample-data/section8/daily/action", app. 
name, date.from, date.to) 
data 





} 
读 入 数据 
# Dar 


dau meadDau (eame Ol 20 0 On 0S OS 

head (dau) 

# DPU 

dpu <- readDpu("game-01", "2013-05-01", "2013-10-31" 

head (dpu) 

# Action 

user.action <- readActionDaily ("game-01", "2013-10-31", "2013-10- 
3 

head(user.action) 


## log date app name user id : 
3-05-01 game-01 608801 : 
3-05-01 game-01 712453 | 
3-05-01 game-01 776853 : 
3-05-01 game-01 823486 : 
3-05-01 game-01 113600 | 
3-05-01 game-01 452478 : 
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| ## log date app name user id payment 

| 拼 1 2013-05-01 game-01 804005 571 

; 拼 2 2013-05-01 game-01 793537 81 

; 拼 3 2013-05-01 game-01 317717 81 

| 拼 4 2013-05-01 game-01 317717 81 

i 拼 5 2013-05-01 game-01 426525 324 

| #6 2013-05-01 game-01 540544 243 

@@ Action 

: 村 l0g date app name user id AR1 A2 A3 R4 A5 A6 A7 «ee A51 A52 A53 A54 : 
| 振 12013-10-31 game-01 654133 0 00000 0 0 0 046 | 
| 振 2 2013-10-31 game-01 425530 0 0 0 010 1233 4 0 07 | 
| 振 3 2013-10-31 game-01 709596 0 0 0 0 0 0 0 0 0 0 2 | 
| 振 42013-10-31 game-01 525047 0 2 0 0 9 0 0 0 0 0109 | 
| 耕 52013-10-31 game-01 796908 0 0 0 0 0 0 0 0 0 064 | 


将 DAU 和 DPU 合并 





R-CODE 
08-04 
# 合并 消费 额 数据 e804 





dau2e mergel(dau dul (loogmdate user vnem le 
by elonmeater er a 





# 添加 消费 额 标 志 位 
dau2$is.payment <- ifelsel(lis.nal(dau2$payment), 0, 1) 
head (dau2) 














# 将 无 消费 记录 的 消费 额 设 为 0 
dau2$payment <- ifelse(is.na(dau2$payment), 0, dau2s$payment) 
head (dau2) 
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| ### 0g_ date user id app name payment is.payment 
; 所 1 2013-05-01 1141 game-01 NA 0 
; 所 2 2013-05-01 1689 game-01 NA 0 
i 托 3 2013-05-01 2218 game-01 NA 0 
| 所 4 2013-05-01 3814 game-01 NA 0 
i #5 2013-05-01 3816 game-01 NA 0 
i 插 6 2013-05-01 4602 game-01 NA 0 





按 月 统计 





R-CODE 
# 增加 一 列表 示 月 份 





dqau2$1og_month <- substr(dau2$1log date, 1, 7) 


# 按 月 统计 
mau <- ddply(dau2, . (log month, user id), summarize, 
payment = sum(payment),access days = length(log date)) 


head (mau) 


## log month user id payment access days 


i 振 1 2013-05 65 0 1 | 
; #2 2013-05 115 0 1 : 
覃 3 2013-05 194 0 1 
; #4 2013-05 426 0 4 : 
i; #5 2013-05 539 0 1 : 
i; #6 2013-05 654 0 1 : 
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确定 排名 的 范围 


k-means 方法 可 以 通过 kmeans 函数 来 执行 ， 但 该 方法 的 缺点 是 结 
果 不 稳定 。ykmeans 程序 包 中 的 ykmeans 也 数 ， 在 内 部 将 kmeans 函数 
执行 了 100 次 ， 因 此 能 够 获得 稳定 的 结果 。 























R-CODE 


library (ykmeans) W500 


library (ggplot2) 
library (scales) 


# A47 为 排行 榜 得 分 
user.action2 <- ykmeans (user.action, "A47", "A47", 3) 
# 每 个 类 的 人 数 


table (user.action2$cluster) 

















| 抽 1 2 3 : 
| 捧 2096 479 78 





排行 榜 得 分 的 分 布 


R-CODE 
# 排行 榜 得 分 的 分 布 


ggplot (arrange (user.action2, desc(A47)), 
aes(x ="1:length(user id),y = A4Y7, 
eol asfactor(eluester) hape > asmftactorl(eluster NU 
geom line() + 
xlab("user") + 
ylab ("Ranking point") + 
scale y continuous(label = comma) + 
gatitle ("Ranking Point") 
theme (legend.position = "none") 
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500,000-— | 
400.000- 


300,000- 


Ranking point 


200,000- | 


100.000- ~ 





' 1 
0 1000 2000 
User 





限定 排名 靠 前 的 用 户 


R-CODE 


Usersaction hi<= user action2 user action2 seluster >=0 08-08 
names (user.action)] 





进行 主 成 分 分 析 


# 用 于 机 器 学 习 的 库 
# 利用 库 中 包含 的 函数 进行 数据 的 前 期 处 理 


library (caret) 




















User.action.f <- User.action.hl, -ce(1:4)] 
row.names (user.action.f) <- user,.action.h$user id 
head (user.action.f) 


# 删除 那些 信息 量 小 的 变量 
DZzV <- nearZeroVar (user.action.f) 
user.action.f.filterd <- user.action.f[,-nzv] 


# 删除 那些 相关 性 高 的 变量 
UUSeeacienecone eonm ver a nt er 
ae on te tn one onur on eo uo) 
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useriact ion te filerd < User actione ft tilterol hohly oor 

# 进行 主 成 分 分 析 

# pca 

user.action.pca.base <- prcomp (user.action.f.filterd, scale = T) 
user.action.pca.basesrotation 























进行 聚 类 
这 里 我 们 使 用 ykmeans 函数 来 执行 k-means 方法 。 可 以 将 类 的 个 数 
以 向 量 的 形式 传 给 ykmeans 图 数 ， 函 数 会 对 每 个 类 的 个 数 执行 一 次 
kmeans 聚 类 ， 最 后 将 平均 散布 最 小 的 类 的 个 数 作为 聚 类 的 结果 返回 。 


R-CODE 
。 08-10 
user.action.pca <- data.frame (user.action.pca.base$x) 
keys <- names (user.action.pca) 
user.action.km <- ykmeans (user.action.pca, keys, "PC1", 3:6) 
table (user.action.km$cluster) 
| 林 1 2 3 4 5 | 
| 拼 23 230 59 195 50 : 
R-CODE 
ggplot (user.action.km, \98-11)/ 
aes (x=PC1 ,y=PC2, col=as.factor (cluster), shape=as.factor(cluster))) + 


geom point () 
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4- . - 
日 
+ 四 是 
el: 证 ER 
aa A + 十 + 下 a 
ae ee 上 六 扩 信 i i 
pg We 人 rT 
< TCR 
0- A BR 嫩 李 和 一 加 加 四 as.factor(cluster) 
ee 2 i a - 
从 全 外 人 + 二 + 二 坦 日 加 1 
ee A 和 A m aA2 
O Me 十 + 二 + 十 “二 着 
0 Ee te 回 加 9 
. Dat F +4 
es + 5 
4- = 一 
a 
四 
四 
a 
' 1 
PC1 
k-means 聚 类 的 结果 





计算 每 个 类 的 平均 值 


R-CODE 


user.action.f.filterd$cluster <- user.action.km$cluster \08-12/ 


user.action.f.center <- 
ldply (lapply (sort (unidque (user.action.f.filterd$cluster)), 
einem (lt) 
XxX <- User.action.f.filterdluser.action.f.filterdscluster == 1, 
-ncol (user.action.f.filterd)] 
apply Co 2 rune ma 





library (fmsb) os-134 
# 对 雷达 图 所 需 的 数据 进行 整理 的 函数 


createRadarChartDataFrame <- function(df) { 
df <- data.frame (df) 
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dfmax <- apply(df, 2, max) + 1 
gimme pol (Em 
as.data.frame (rbind (dfmax, dfmin, df)) 


} 
# 排除 相关 性 较 高 的 变量 
df <- user.action.f.center[, - (ncol(user.action.f.center) -= 1)] 


dfveorm oom(dr) 
Gh loll ee < dake seale ea lol see eve = (Oe et) 
# 手动 调整 使 得 数据 易于 解释 














加 Ed ear droll on 





# 生成 雷达 图 所 需 的 数据 
df.filterd <- createRadarChartDataFrame (scale (df.filterd)) 
names (df .filterd) 














间 # 叶 ] "A2" "Al11™ "Al3" "A43" "A44"™ "AS51" 











级 | 救援 他 人 的 | 被 救援 的 | 对战 敌 方 首领 的 | 参与 战斗 的 | 参与 游戏 的 

















别 次 数 次 数 次 数 次 数 次 数 





R-CODE 


names (df .filterd) <- en 级别 "， "救援 他 人 的 次 数 ，， "被 救援 的 次 数 ，， 
"对 战 政 方 首领 的 次 数 ，， "参与 战 斗 的 次 数 "， "参与 游戏 的 次 数 ") 





画 出 雷达 图 


R-CODE 
library (sysfonts) os"5) 


library (showtext) 

# 雷 达 图 中 显示 中 文 需要 先导 入 字体 

Fadarehae (oi Elerd se ple I lw A col raunbeow(sy 
Tegenci toprign ee legende = lool rambow(e ys) 
































※ 在 中 文系 统 中 ， 为 了 在 生成 的 雷达 图 中 显示 中 文 ， 请 先 执 行 ]ibrary (sysfonts) 
和 1ibrary (showtext) 命令 。 
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级 别 Sd 

2 

3 

| 4 

救援 他 人 的 次 数 :: … 参与 游戏 的 | ---- 5 
: 次 数 





被 救援 的 次 数 “、 对 参与 战斗 的 次 数 





对 战 敌 方 首领 的 次 数 


各 个 用 户 类 别 的 行为 特征 


@ 针对 各 个 用 户 类 的 解释 
1. ( 排名 靠 前 的 用 户 当中 ) 轻 度 用 户 
祈 和 其 他 类 的 用 户 相 比 所 有 的 属性 值 都 偏 低 
2. 经 常 帮助 他 人 的 用 户 4) 
救援 他 人 的 次 数 较 多 
力 更 生 的 用 户 
救援 和 被 救援 的 次 数 较 少 ， 参 与 游戏 的 次 数 较 多 
常 帮助 他 人 的 用 户 (@) 
救援 他 人 的 次 数 较 多 
5. 经 常 互相 帮助 的 用 户 
> 救援 他 人 和 被 救援 的 次 数 都 很 多 








入 省 济 





小 
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计算 每 个 类 的 KPI 


R-CODE 
usersactlonmt tltera uel Qelo 


as.numeric (rownames (user.action.f.filterd)) 
User.action,kpi < merge(user.action,f,filterd, mau,by = "User id") 





ddply (user.action.kpi, .(cluster), summarize, 
arpu = round (mean (payment)), 
access days = round (mean(access days))) 


## cluster arpu access days 


| 排 工 1 1065 20 | 
| 村 2 2 259 24 
| 村 3 3 75 14 : 
| 杰 4 4 146 26 
| 村 5 5 1543 28 : 
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[分 析 应 用 ] 篇 


第 9 章 
案例 @ 一 决策 树 分 析 


具有 哪些 行为 的 用 户 会 是 
长 期 用 户 


弄 清 长 期 参与 社交 游戏 用 户 的 行为 特征 

野猫 拼图 》 游 戏 的 运营 状态 良好 ， 但 是 相 比 其 他 应 用 ， 
黑 猫 拼图 》 的 很 多 用 户 在 开始 游戏 后 不 久 就 离开 了 。 为 了 改 
善 这 种 情况 ， 我 们 进行 了 探讨 ， 希 望 通过 数据 分 析 弄 清楚 好 
台 游戏 后 用 户 什 么 样 的 行为 会 促使 该 用 户 今后 也 能 持续 来 
访 ， 从 而 为 改善 现 有 的 游戏 策划 方案 提供 参考 ， 那 么 我 们 该 
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有 哪些 行为 的 用 户 会 是 长 期 


轩 希望 减少 用 户 开始 游戏 
后 不 久 就 离开 的 情况 

















Ne 
攻 
店 
< 
/1 























和 其 他 应 用 相 比 ， 用 户 开始 游戏 后 不 久 就 离开 的 情况 较 多 


目前 《 黑 猫 拼 图 》 游 戏 运 营 情 况 良 好 ， 已 经 是 公司 稳定 的 收益 来 
源 。 这 款 游 戏 虽然 没有 什么 和 收益 相关 的 大 问题 ， 但 还 是 存在 几 处 令 人 
担心 的 地 方 。 其 中 用 户 开始 游戏 后 不 久 就 离开 的 情况 ， 在 这 球 游戏 中 要 
比 其 他 应 用 严重 得 多 。 由 于 这 款 游戏 在 传统 媒体 上 投放 了 大 量 的 广告 ， 
并 且 比 其 他 应 用 的 用 户 规模 都 要 大 ， 因 此 不 仅 是 核心 用 户 群 ， 轻 度 用 户 
群 的 人 数 也 比 其 他 应 用 多 ， 这 有 可 能 是 导致 这 一 问题 的 原因 之 一 。 尽 管 
如 此 ， 既 然 我 们 好 不 容易 让 用 户 开始 了 游戏 ,那么 就 希望 他 们 能 够 成 为 
游戏 的 长 期 用 户 ， 这 也 是 游戏 的 策划 和 运营 部 门 所 希望 的 。 

因此 ， 我 们 需要 灵活 运用 数据 分 析 ， 制 定 出 合理 的 运营 策略 来 尽量 
留 住 用 户 。 当 前 我 们 面临 的 现状 是 “开始 游戏 后 不 久 便 离 开 的 用 户 较 
多 ”， 而 我 们 的 预期 是 “开始 游戏 后 不 久 便 离开 的 用 户 很 少 ”。 


















































































































































第 9 章 的 现状 和 预期 
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了 解 乐趣 的 结构 




















与 其 探究 用 户 离开 的 原因 ， 不 如 寻找 用 户 继续 访问 的 理由 


在 本 例 中 ， 我 们 不 是 要 解决 一 个 显而易见 的 问题 ， 而 是 希望 通过 灵 
活 运用 数据 分 析 来 给 用 户 提供 更 好 的 服务 。《 黑 猫 拼图 》 游 戏 和 其 他 应 
用 相 比 ， 服 务 的 规模 较 大 ， 并 且 在 传统 媒体 上 投放 了 广告 ， 因 此 轻 度 用 
户 群 的 数量 估计 也 很 多 。 跟 核心 用 户 相 比 ， 轻 度 用 户 对 游戏 不 太 上 心 ， 
所 以 通常 这 些 用 户 继续 游戏 的 可 能 性 也 不 太 高 。 因 此 ， 即 使 我 们 调查 分 





























析 了 用 户 离开 的 主要 原因 ， 仍 有 可 能 得 不 到 什么 有 用 的 信息 。 于 是 ， 与 
其 去 探究 用 户 离开 的 原因 ， 不 如 从 那些 长 期 访问 游戏 的 用 户 的 行为 入 
手 , 去 寻找 用 户 继续 访问 游戏 的 理由 。 继 续 访 问 游戏 的 用 户 应 该 是 由 于 
某 些 原因 在 游戏 的 过 程 中 体会 到 了 游戏 的 “乐趣 "， 所 以 我 们 需要 通过 
数据 分 析 的 方式 来 找 出 这 些 原 因 ， 进 而 探讨 能 够 将 这 种 “乐趣 ”更 好 地 
传递 给 用 户 的 策划 方案 。 


分 解 “ 乐 趣 ” 的 要 素 


下 面 我 们 来 考察 一 下 为 什么 那些 游戏 的 长 期 用 户 能 够 体会 到 游戏 的 
“乐趣 ”。 由 于 每 个 人 对 于 “乐趣 ”的 看 法 可 能 都 不 一 样 ， 因 此 光 说 “ 乐 
趣 ” 还 不 行 ， 我们 需要 对 《 黑 猫 拼图 》 游 戏 的 “乐趣 ”进行 定义 ， 并 根 
据 这 个 定义 来 做 进一步 的 考量 。 因 此 ， 让 我 们 首先 从 分 解 这 种 “乐趣 ” 
的 构成 要 素 入 手 。 
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《 黑 猎 拼图》 游戏 的 用 户 在 初期 能 够 进行 的 行为 大 体 分 为 下 面 3 
个 ， 因 此 我 们 认为 《 黑 猫 拼图 》 游 戏 初 期 的 “乐趣 ”就 是 由 这 3 个 要 素 
构成 的 。 


@ 战斗 : 对 战 其 他 用 户 
@ 协作 : 和 其 他 用 户 协作 共同 打败 敌 方 首 领 
e@ 发 送 消息 : 向 其 他 用 户 发 送 消息 


我 们 将 上 面 的 行为 称 为 “社交 行为 "， 游 戏 用户 的 这 些 行为 会 相互 
影响 。 在 社交 游戏 当中 ， 这 些 社交 行为 要 素 有 很 多 ， 它 们 让 用 户 切实 感 
觉 到 其 他 用 户 的 存在 ， 并 促使 用 户 继续 访问 游戏 。 

如 上 所 述 ， 我 们 将 “乐趣 ”这 类 模糊 的 说 法 分 解 成 具体 的 行为 和 功 
能 ， 从 而 使 得 针对 具体 分 析 和 策略 的 讨论 成 为 可 能 。 











量化 “社交 行为 ” 

下 面 我 们 从 数据 分 析 的 角度 来 看 上 述 3 种 社交 行为 。 

通过 初步 观察 数据 ， 我 们 发 现 流 失 的 用 户 大 都 是 在 开始 游戏 后 的 1 
周 内 就 不 再 来 访 了 ， 因 此 我 们 可 以 设立 假设 : 用 户 是 否 会 长 期 来 访 游戏 
取决 于 用 户 在 开始 游戏 后 的 1 周 内 的 行为 。 接 着 我 们 就 要 思考 如 何 用 数 
值 来 量化 上 述 社交 行为 。 首 先 应 当 想 到 的 就 是 这 些 社 交行 为 在 用 户 开 始 
游戏 后 的 1 周 内 发 生 了 多 少 次 。 通 过 这 些 数值 的 大 小 ， 就 可 以 得 知 用 户 
从 《 黑 猫 拼图 》 游 戏 中 寻求 的 “乐趣 ”。 























@ 战斗 次 数 很 多 的 情况 : 喜欢 在 游戏 中 对 战 其 他 用 户 

@ 协作 次 数 很 多 的 情况 : 喜欢 在 游戏 中 通过 和 其 他 用 户 协 作 击 败 敌 
方 首领 

@ 发 送 消息 次 数 很 多 的 情况 : 喜欢 和 游戏 中 的 其 他 用 户 交 流 


当 我 们 明确 了 大 多 数 用 户 的 需求 后 ， 就 可 以 制定 针对 性 更 强 的 游戏 
运营 策略 ， 从 而 促使 更 多 的 用 户 长 期 来 访问 我 们 的 游戏 。 
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接着 我 们 需要 考虑 各 个 社交 行为 是 在 用 户 开始 游戏 几 天 后 首次 发 生 
的 ， 根 据 这 些 数值 就 可 以 得 知 各 个 社交 行为 的 下 述 情况 。 





@ 用 户 从 第 1 天 起 就 发 生 这 种 社交 行为 好 吗 
e@ 用 户 在 开始 游戏 几 天 后 再 发 生 这 种 社交 行为 好 吗 





例如 ， 对 战 其 他 用 户 和 与 其 他 用 户 协作 共同 打败 敌 方 首领 的 社交 行 
为 一 开始 就 有 会 比较 好 ， 而 从 开始 游戏 第 1 天 起 就 给 其 他 用 户 发 送 消息 
就 不 太 好 。 





整理 一 下 上 面 的 内 容 ， 如 下 表 所 示 。 

















社交 行为 几 天 后 发 生 发 生 几 次 用 户 心理 
战斗 A B 想 在 游戏 中 与 他 人 对 战 
协作 C D 想 在 游戏 中 和 他 人 协作 
发 送 消 息 E F 想 和 同伴 交流 




















是 否 能 将 分 析 结果 与 游戏 策划 相 结合 


我 们 拿 着 上 面 的 表格 和 游戏 的 策划 部 门 进 行 了 沟通 ， 对 方 的 意见 是 
如 果 我 们 能 够 知道 这 些 要 素 中 哪 种 要 素 能 获得 更 好 的 效果 ， 那么 就 能 
结合 该 要 素来 实施 相应 的 策划 方案 。 因 此 ， 我 们 的 任务 就 是 根据 上 表 的 
内 容 ， 分 析 得 出 具有 什么 样 行为 的 用 户 更 容易 长 期 访问 游戏 。 
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站 把 类 作为 自 变 量 


有 哪些 行为 的 用 户 会 是 长 期 
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讨论 如 何 量化 “稳定 来 访 ” 
我 们 整理 了 一 下 前 面谈 到 的 事实 和 假设 ， 并 得 到 下 面 的 处 理 流程 。 
































1. 开始 游戏 后 1 周 内 用 户 的 稳定 来 访 率 比较 低 ( 事实 ) 
2. 根据 初次 访问 游戏 时 用 户 行为 的 不 同 ， 其 稳定 来 访 率 也 不 一 样 

( 战斗 ? 协作 ? 发 送 消息 ? ) x ( 次 数 ? 时 间 段 ? ) ( 假设 ) 
3. 分 析 的 结果 是 OO 的 行为 模式 比较 容易 促使 用 户 稳定 来 访 游戏 

( 假设 ) 

4. 为 了 使 得 用 户 养 成 OO 〇 的 行为 模式 ， 需 要 实施 x x ( 解决 方案 ) 


根据 上 述 处 理 流 程 ， 在 本 例 中 ， 如 果 我 们 可 以 通过 数据 分 析 找 出 
“战斗 ” “协作 ” 和 “发 送 消息 ” 这 些 社交 行为 和 “稳定 来 访 ” 之 间 的 关 
系 ， 那 么 之 前 不 确定 的 问题 就 会 自然 地 明确 了 。 在 分 析 对 象 中 ， 社 交行 
为 是 很 容易 被 量化 的 ， 而 “稳定 来 访 ” 却 很 难 量化 。 因 此 ， 我 们 首先 需 
要 考虑 如 何 量 化 “稳定 来 访 ”。 

我 们 考虑 了 多 种 量化 “稳定 来 访 ” 的 方法 。 例 如 在 社交 游戏 中 ,，“N 
日 持续 率 ” 就 是 一 种 常用 的 指标 。 























N 日 持续 率 = 初次 来 访 游戏 N 天 后 再 次 来 访 的 用 户 数 / 初次 来 访 游 
戏 的 用 户 数 


这 个 指标 适用 于 宏观 倾向 的 把 握 ， 而 在 本 例 中 ,我们 需要 的 并 非 整 
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体 的 倾向 ， 而 是 希望 发 气 和 社交 行为 之 间 的 关系 ， 因 此 需要 将 每 个 用 户 
稳定 来 访 的 情况 进行 量化 。 很 显然 ，N 日 持续 率 无 法 计算 每 个 用 户 的 情 
况 ， 因 此 这 个 指标 不 适用 于 本 例 。 

于 是 ， 本 例 中 我 们 考虑 使 用 “登录 密度 ”， 通 过 这 个 指标 可 以 计算 
每 个 用 户 的 情况 。 














NN 日 登录 密度 =N 日 内 用 户 到 访 的 天 数 /N 





从 上 述 定义 可 以 得 知 ，N 日 登录 密度 的 取 值 范围 在 0 到 1 之 间 ， 越 
接近 1 表示 该 用 户 越 可 能 是 稳定 来 访 的 用 户 。 在 分 析 中 ， 我 们 将 用 户 开 
始 游戏 后 1 周 内 (第 0 天 ~ 第 6 天 ) 的 行为 作为 自 变 量 ， 而 作为 因 变 量 
的 登录 密度 则 由 下 一 周 (第 7 天 ~ 第 13 天 ) 的 数据 得 到 。 

















找 出 决策 树 分 析 中 影响 最 大 的 分 裂 属 性 


在 完成 了 对 “稳定 来 访 ”的 量化 后 ， 我 们 来 讨论 一 下 分 析 方 法 。 像 
本 例 这 样 考察 多 个 属性 的 影响 时 ， 通 常 的 处 理 方法 是 对 每 一 个 属性 进行 
交叉 列表 统计 。 但 是 仔细 想 想 ， 调 查 多 个 属性 组 合 所 产生 的 影响 ， 也 就 
是 找 出 下 面 这 样 的 一 些 模式 。 














@ 从 不 主动 对 战 其 他 用 户 ， 但 协助 他 人 超过 30 次 的 用 户 会 稳定 


来 访 
@ 第 3 天 之 后 发 送 了 5 条 以 上 的 消息 ， 并 在 第 7 天 协助 他 人 2 次 以 
上 的 用 户 群 会 稳定 来 访 


如 果 像 这 样 将 各 种 社交 行为 的 次 数 和 发 生 天 数 进行 组 合 ， 那 么 我 们 
需要 进行 大 量 的 交叉 列表 统计 ， 这 个 计算 量 是 目前 我 们 无 法 承受 的 。 在 
这 种 情况 下 ， 一 种 便利 的 分 析 方法 是 使 用 决策 树 。 

决策 树 分 析 在 商业 数据 分 析 中 是 一 种 使 用 广泛 且 便利 的 分 析 方 法 ， 
其 中 一 种 用 法 是 找 出 影响 最 大 的 分 裂 属 性 。 该 分 裂 属 性 在 交叉 列表 统计 
中 需要 将 所 有 的 组 合 都 测试 一 遍 才 有 可 能 找到 。 所 以 下 面 我 们 将 使 用 决 
策 树 分 析 。 
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利用 交叉 列表 统计 来 寻找 分 裂 属 性 


决策 树 分 析 
oe 最 上 面 的 分 裂 属性 
二 一 ~ ! De 

A4 B4 ( A5 B5 A6 B6 1 
回回 加) | A5 B5 
4 


分 裂 后 最 有 效 的 属 
通过 交叉 列表 统计 找到 差 最 大 的 属 。 L_ | 作为 下 一 个 节点 
性 来 将 A5/B5 分 开 ， 再 去 寻找 其 他 | 

属性 进一步 分 解 : 

































































加 
广 







































































A 
A5 B5 A5 B5 
Se X4 YY4 | X4 Y4 



































交叉 列表 统计 和 决策 树 分 析 的 比较 





考量 实数 、 比 率 和 主 成 分 这 3 个 分 析 属 性 


在 确定 分 析 方法 之 后 ， 我 们 就 需要 着 手 准备 所 需 的 数据 ， 但 在 这 之 
前 我 们 再 稍微 讨论 一 下 如 何 量化 社交 行为 的 问题 。 目 前 我 们 考量 的 数量 
是 各 种 社交 行为 发 生 的 次 数 以 及 这 些 行为 发 生 在 多 少 天 后 。 也 就 是 说 ， 
我 们 在 探寻 下 面 这 些 模 式 。 

e@A 天 后 和 其 他 用 户 对 战 了 B 次 


e@eC 天 后 和 他 人 协作 了 D 次 
e@E 天 后 发 送 了 F 次 消息 





然而 ， 我 们 讨论 的 社交 行为 模式 难道 仅 限 于 上 面 这 样 单纯 的 实数 
吗 ? 例如 ， 即 使 实际 次 数 有 差异 ， 如 果 从 开始 使 用 的 1 周 内 各 种 行为 发 
生 的 时 间 点 相近 ， 我 们 不 也 可 以 将 其 视 为 一 类 行为 模式 吗 ? 

因此 ， 让 我 们 根据 每 天 的 访问 次 数 占 7 日 内 的 访问 总 次 数 的 比 
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率 ， 来 讨论 行为 模式 。 根 据 该 比率 ， 我们 可 以 得 知 用 户 7 日 内 的 下 述 
情况 。 


e@ 在 前 半 段 时 间 内 有 较 多 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 
e@ 在 后 半 段 时 间 内 有 较 多 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 
@7 天 内 都 有 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 


最 后 ， 我 们 还 可 以 考虑 使 用 第 8 章 中 介绍 的 主 成 分 分 析 来 计算 得 到 


基于 主 成 分 的 模式 。 当 各 种 社交 行为 相互 影响 ,或 者 没有 什么 行为 的 用 
户 较 多 的 情况 下 ， 使 用 独立 的 主 成 分 能 得 到 更 好 的 分 离 。 








下 面 我 们 就 用 上 述 3 种 分 析 属 性 来 对 社交 行为 和 用 户 的 稳定 来 访 的 








关系 进行 分 析 。 





将 类 作为 自 变量 来 使 用 


此 ， 


我 们 来 整理 一 下 目前 为 止 的 流程 ， 现 有 的 数据 如 下 。 


@ 行为 的 种 类 : 战斗 、 协 作 、 发 送 消息 
@ 时 间 和 次 数 : 7 日 内 某 个 行为 在 什么 时 候 发 生 了 几 次 


针对 这 些 数据 ， 我 们 从 下 述 3 个 分 析 属 性 来 着 手 进行 分 析 。 





e 实数 
@ 比 率 
e@ 主 成 分 














如 果 把 这 些 都 放 到 一 起 来 分 析 ， 得 出 的 结果 很 可 能 难以 解释 。 因 
我 们 需要 首先 弄 清楚 用 哪个 分 析 属 性 分 析 哪 种 社交 行为 最 能 说 明 

















稳定 到 访 率 ， 并 在 这 一 过 程 中 确认 哪 种 行为 模式 容易 促使 用 户 稳定 
来 访 。 














因此 ， 首 先 我 们 需要 将 社交 行为 和 分 析 属 性 组 合成 一 个 新 的 自 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 






































202 | 第 9 具有 哪些 行为 的 用 户 会 是 长 期 





























@ 新 的 自 变 量 1: 社交 行为 = 战斗 、 分 析 属 性 = 实数 
@ 新 的 自 变 量 2: 社交 行为 = 战斗 、 分 析 属 性 = 比率 
@ 新 的 自 变量 3: 社交 行为 = 战斗 、 分 析 属 性 = 主 成 分 

















使 用 这 个 新 的 自 变量 进行 决策 树 分 析 ， 我 们 就 能 够 找 出 对 稳定 到 访 
率 影 响 最 大 的 社交 行为 和 分 析 属 性 的 组 合 。 组 合成 一 个 新 变量 的 方法 有 
很 多 ， 在 本 例 中 ， 将 有 类 似 行为 的 用 户 归 到 一 起 会 比较 好 ， 因 此 可 以 使 
用 聚 类 的 方法 。 这 里 我 们 使 用 第 8 章 介 绍 过 的 k-means 方法 。 
































中 通过 各 种 行为 x 分 析 属 性 进行 聚 类 

















































































































用 户 ID | Action | 分 析 属 性 | 第 0 天 | 第 1 天 第 6 天 用 户 ID 类 的 种 类 类 
300 | battle | 实数 300 battle_ 实 数 1 
用 户 ID | Action | 分 析 属 性 | 第 0 天 | 第 1 天 "+ 第 6 天 用 户 ID 类 的 种 类 类 
300 | battle | 比率 罗 300 battle_ 比 率 2 
用 户 ID | Action 分 析 属 性 | PC1 PC2 可 PC7 用 户 ID 类 的 种 类 类 
300 | battle | 主 成 分 四 300 battle_ 主 成 分 3 
C@) 将 类 作为 自 变量 

用 户 ID 类 的 种 类 类 

300 battle_ 实 数 1 二 

用 户 ID 类 的 种 类 类 用 户 ID ”| battle_ 实数 | battle_ 比 率 [battle_ 主 成 分 | 
300 ”| battle_ 比 率 2 [一 全 300 1 2 3 
用 户 ID 类 的 种 类 类 

300 battle_ 主 成 分 3 
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(3) 进行 决策 树 分 析 ， 并 调查 最 有 效 的 类 的 种 类 中 每 个 类 的 倾向 





battle_ 比 





经 过 的 天 数 


在 本 例 的 数据 生成 过 程 中 ， 我 们 使 用 了 第 8 章 中 介绍 的 主 成 分 分 析 
和 k-means 等 分 析 方 法 。 在 商业 数据 分 析 领 域 ， 为 了 使 用 某 种 数据 分 析 
方法 ， 通 常 可 以 使 用 别 的 方法 来 进行 数据 加 工 。 需 要 特别 提 到 的 是 主 成 
分 分 析 ， 当 自 变 量 之 间 不 是 相互 独立 时 ， 它 能 够 将 自 变 量变 换 成 独立 的 
成 分 。 或 者 在 自 变 量 太 多 的 情况 下 ， 为 了 降 维 也 可 以 使 用 该 方法 。 总 
之 ， 主 成 分 分 析 是 一 种 经 常 使 用 的 辅助 性 的 分 析 方法 。 


数据 收集 


下 面 我 们 来 讨论 一 下 进行 决策 树 分 析 所 需要 的 数据 。 首 先 ， 为 了 调 
查 用 户 开始 游戏 后 第 1 周 和 第 2 周 的 到 访 情况 ,我们 需要 使 用 下 述 的 新 


用 户 ( Install ) 数据 和 DAU 数据 。 
@@ Install 到 wo 

















































































































开始 使 用 日 期 开始 使 用 时 间 
1 | 2013 年 5 月 4 1 1367599368 | 女性 | 40 ~ 49 岁 | iOS 
2 | 2013 年 5 月 14 2 1368514618 | 男性 | 20 ~ 29 岁 | Android 
3 | 2013 年 5 月 14 3 1368518894 | 女性 | 20 ~ 29 岁 | Android 
4 | 2013 年 5 月 14 4 1368520967 | 女性 | 40 ~ 49 岁 | Android 
5 | 2013 年 5 月 14 5 1368523275 | 女性 | 20 ~ 29 岁 | Android 
6 | 2013 年 5 月 14 6 1368527040 | 女性 | 10 ~ 19 岁 | iOS 
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/| 


















































@ DAU 

到 访 日 期 应 用 名 用 户 ID 
1 2013 年 6 月 1 日 《 黑 猫 拼 图 》 1701 
2 2013 年 6 月 1 日 《 黑 猫 拼图 》 1720 
3 2013 年 6 月 1 日 《 黑 猫 拼图 》 1087 
4 2013 年 6 月 1 日 《 黑 猫 拼图 》 1756 
5 2013 年 6 月 1 日 《 黑 猫 拼图 》 1218 
6 2013 年 6 月 1 日 《 黑 猫 拼图 》 1748 





















































然后 我 们 需要 处 理 3 类 社交 行为 ， 这 里 使 用 的 是 在 某 一 天 各 个 社交 
行为 发 生 的 次 数 的 数据 。 


ys R-CODE 
@ 战斗 (行为 日 志 ) \09-03)/ 
a 有 


到 访 日 期 





































































































































































































1 | 2013 年 6 月 1 日 黑 猫 拼图 》 战斗 1087 1 
2 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 战斗 1570 1 
3 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 战斗 1570 1 
4 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 战斗 1257 1 
5 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 战斗 1257 1 
6 | 2013 年 6 月 1 《 黑 猫 拼图 》 战斗 1257 1 
@ 发 送 消息 ( 行为 日 志 ) 

到 访 日 期 应 用 名 社交 行为 用 户 ID ”次 数 
1 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 发 送 消息 8 8 
2 | 2013 年 6 月 1 日 黑 猫 拼图 》 发 送 消息 13 10 
3 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 发 送 消息 28 2 
4 | 2013 年 6 月 1 目 《 黑 猫 拼图 》 发 送 消息 44 2 
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到 访 日 期 应 用 名 社交 行为 
5 | 2013 年 6 月 1 《 黑 猫 拼图 》 发 送 消息 49 六 
6 | 2013 年 6 月 1 《 黑 猫 拼图 》 发 送 消 息 133 10 



















































































































































































到 访 日 期 行为 
1 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 6 3 
2 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 8 13 
3 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 10 3 
4 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 13 51 
5 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 28 6 
6 | 2013 年 6 月 1 《 黑 猫 拼图 》 协作 44 27 






































数据 加 工 
首先 我 们 计算 出 登录 密度 。 R-CODE WW R-CODE 
> (e009) (eo 














DAU 用 户 ID 日 期 Install | 纵 约 天 数 
100 6/8 5/1 38 
-= 
200 6/8 6/1 了 
Install 300 6/14 6/1 13 











限定 “经 过 天 数 = 7 ~ 13 天 ” 计算 出 登录 密度 











用 户 ID 日 期 Install | 结 d 的 天 数 








200 6/8 6/1 rs 























※2+7 = 0.286 
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GD 将 DAU 和 首次 访问 时 间 数 据 合并 

@@ 取得 用 户 首次 访问 后 第 7 ~ 13 天 的 数据 
(@) 计算 出 每 个 用 户 的 登录 密度 

(@ 每 个 分 析 对 象 用 户 与 其 登录 密度 合并 





用 户 ID ”到 访 日 期 。” 首次 访问 时 间 性 别 ”年 龄 段 ” 设备 ”登录 密度 
1 | 1693 |2013 年 6 月 1 370012721 | 女 











20 ~ 29 内 | Androi 




















2 | 1694 |2013 年 1 370013166 | 女性 |20 ~ 29 岁 | Andro 





























3 
4 | 1696 |2013 年 6 月 1 370014074 | 男 4 





20 ~ 29 岁 | Andro 

















30~39 岁 | iOS 











中 
生 
1695 |2013 年 6 月 1 370013609 | 男性 |40 ~ 49 岁 | Androi 
生 
生 
生 








SID | 已 | 与 | 已 | 拍 




















5 | 1697 |2013 年 6 月 1 370014654 | 女 中 
女 


6 | 1698 |2013 年 6 月 1 370015187 20 ~ 29 岁 | Android 






































然后 ， 生 成 用 户 首次 访问 后 7 天 内 的 各 个 社交 行为 的 数据 。 


R-CODE R-CODE 
一 \09-06 -全 
用 户 ID 日 期 Action | count Install “| 经 过 的 天 数 























Action 
100 6 battle 10 5/1 38 
上 一 全 
300 6 battle 10 6 0 
Install 300 6/7 battle 20 6 6 























限定 “经 过 天 数 = 0 ~ 6 天 ” 





用 户 ID 日 期 Action | count Install | 经 过 的 天 数 





300 6/1 battle 10 6/1 0 





300 6/7 battle 20 6/1 6 























将 “经 过 的 天 数 ” 的 数据 整理 成 列 





用 户 D | Action | 第 9 | 第 | -… | 第 eB | 





300 battle 10 0 5 20 
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人 将 各 个 社交 行为 的 数据 和 用 户 首次 访问 时 间 的 数据 合并 
@@ 将 时 间 限 定 在 用 户 首次 访问 后 的 第 0 ~ 6 天 
@@ 将 第 N 天 的 数据 整理 到 同一 列 并 按 天 排列 


@ 实数 数据 
用 户 ID 第 0 天 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 第 6 天 



































@ 比率 数据 
用 户 ID 第 0 天 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 第 6 天 



































@ 主 成 分 ( PCA ) 数据 





1257 |-0.43357 | -1.66066 | 0.19505 | 0.23370 | 1.69151 | 1.04351 | 0.21524 





1269 | 0.09118 | -1.2153 | 0.10527 | 0.02830 | 0.58337 | 0.47124 | 0.07861 





1295 | -0.30238 | -1.54932 | 0.17260 | 0.18235 | 1.41448 | 0.90044 | 0.18108 





























至 此 ， 我 们 已 经 生成 了 各 个 社交 行为 和 分 析 属 性 的 数据 ， 接 着 就 是 
使 用 这 份 数据 进行 聚 类 分 析 了 。 在 进行 聚 类 分 析 时 很 重要 的 一 点 是 需要 
知道 类 的 个 数 。 在 商业 应 用 中 ,虽说 类 的 个 数 取 决 于 聚 类 目的 ， 但 一 般 
情况 下 设 3 ~ 6 个 类 就 可 以 了 。 如 果 设 为 2 个 就 过 于 简单 而 不 能 用 ， 如 
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果 设 7 个 或 7 个 以 上 那 又 有 点 太 多 了 ， 使 得 类 的 意义 难以 解释 。 因 此 ， 
我 们 选择 3 ~ 6 个 类 来 进行 聚 类 。 












































R-CODE 

中 通过 3~6 个 类 对 各 种 行为 x 分 析 属性 进行 聚 类 -© 
用 户 ID | Action 分 析 属 性 | 第 0 日 | 第 19 第 6 日 用 户 ID | 类 的 种 类 | 类 的 个 数 | 类 
300 | battle | 实数 300 | battle_ 实 数 3 证 
用 户 ID | Action | 分 析 属 性 | 第 0 日 | 第 4 日 第 6 日 用 户 ID | 类 的 种 类 | 类 的 个 数 | 类 
300 | battle | 比率 2 300 | battle_ 比 率 3 2 
用 户 ID | Action | 分 析 属 性 | PC1 PC2 本 PC7 用 户 ID | 类 的 种 类 | 类 的 个 数 | 类 
300 | battle | 主 成 分 300 jbattle_ 主 成 分 3 3 












































用 户 ID | 类 的 种 类 
数 









battle_ 实 











用 户 ID battle_3_ 实 数 | battle_3_ 比 率 |battle_ 3_ 主 成 分 | 








300 1 2 3 
































用 户 ID | 类 的 种 类 | 类 的 个 数 | 类 
300 |battle_ 主 成 分 3 3 


























用 户 ID ”战斗 03 ”战斗 03 战斗 03 ”..。 战斗 06 ”战斗 06 ”战斗 06 
实数 比率。 主 成 分 实数 。 比率。 主 成 分 
1257 1 1 1 Re 6 6 4 
1269 1 1 1 8 6 6 3 
1295 1 1 1 i 6 6 4 



































最 后 ， 将 带 有 登录 密度 的 分 析 对 象 用 户 数据 和 各 个 社交 行为 的 类 数 


Se® 
要 
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战斗 的 类 | 发 送 消息 的 类 
( 实数 、 比 率 、 主 成 分 ) | “| ( 实数 、 比 率 、 主 成 分 ) 






协作 的 类 
( 实数 、 比 率 、 主 成 分 ) 


x 
( 类 的 个 数 为 3~6 个 ) 

































x 
( 类 的 个 数 为 3~6 个 ) 


| | 
| 


用 户 ID battle_3_ 实 数 | battle_3_ 比 率 | battle_3_ 主 成 分 | msg_3_ 实 数 2 help_6 _ 主 成 分 





x 
( 类 的 个 数 为 3~6 个 ) 


























300 1 2 3 3 3 1 











QD 合并 战斗 的 类 
@) 合并 协作 的 类 
(3) 合并 发 送 消息 的 类 











登录 战斗 03 战斗 03 战斗 03 ”” 协作 06 协作 06 ”协作 06 
密度 ”实数 比率 ” 主 成 分 实数 。” ”比率 主 成 分 
1693 0 0 0 0 Ei 0 0 0 
1694 0 0 0 0 2 1 2 
1695 0 0 0 0 0 0 0 
































至 此 ， 我 们 已 经 将 用 于 决策 树 分 析 的 数据 准备 好 了 。 
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学 恒 进行 决策 树 分 析 















































哪 一 个 社交 行为 对 登录 密度 的 影响 最 大 
我 们 使 用 之 前 获得 的 数据 进行 了 决策 树 分 析 ， 生 成 的 决策 树 如 下 


所 示 。 R-CODE 
9-15/ 


1 




















类 的 个 数 为 4 时 































































































的 协作 主 成 分 类 hlp04_pca.clusterid 了 | 一 首先 看 这 
<1.5 三 1.5 
类 的 个 数 为 6 时 的 
协作 比率 类 2 了 
hlp06_prop.clusterid hlp06_prop.clusterid 
类 的 个 数 为 4 时 的 
2 
SN ye <2.5 三 2.5 
发 送 消息 比率 类 
3 
msg04_prop.cluster.id <2.5 >25 
过 北 5 三 1.5 / \ 
Node 4(n=2538) Node 4(n=136) Node 4(n=135) Node 4(n=18) Node 4(n=141) 
中 写 O 1 本 本 过 > ye | 
0.8 - 0.8 | 0.8 0.8 | | 
O 1 
0.6 8 0.6 ! 0.6 0.6 | 
0.4 9 0.4 0.4 0.4 一 
O 一 [e] 
0.2 0.2 0.2 0.2 
O 三 一 © 
le = 0 0 0 了 0 
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在 生成 的 这 个 决策 树 中 ， 最 重要 的 一 点 是 哪个 属性 被 置 于 最 上 面 的 
节点 。 这 个 属性 就 是 通过 交叉 列表 统计 测试 所 有 组 合 后 得 到 的 那个 对 
“登录 密度 ”影响 最 大 的 说 明 要 素 。 通 过 上 图 可 以 看 出 ,，“ 类 的 个 数 为 4 
时 的 协作 主 成 分 类 ”对 登录 密度 的 影响 最 大 ， 其 次 是 “类 的 个 数 为 6 时 
的 协作 比率 类 ”， 最 右边 的 类 在 第 2 周 的 登录 密度 在 0.7~1， 这 是 一 个 高 
登录 密度 的 状态 。 


研究 每 个 协作 主 成 分 类 的 倾向 


下 面 我 们 来 研究 一 下 类 的 个 数 为 4 时 的 协作 主 成 分 类 的 特征 。 首 


先 ， 我 们 画 出 每 个 类 的 平均 登录 密度 ， 如 下 图 所 示 。 R-CODE R-CODE 
0916/Y 919/ 









































妃 
多 
号 


如 


主 成 分 类 
将 各 个 协作 主 成 分 类 的 平均 登录 密度 可 视 化 








图 中 的 横 轴 是 类 的 编号 ， 纵 轴 是 登录 密度 。 可 以 看 出 ， 类 1 和 其 他 
类 的 登录 密度 差别 很 大 。 

接着 我 们 来 观察 各 个 类 中 协作 行为 的 比率 随 经 过 天 数 的 变化 情况 ， 
如 下 图 所 示 。 
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/| 


\ 类 1 
A 

cluster 
vo 1 
号 类 2 2 
Ce : 

< ER 

| 
ET 共 吕 
days 


将 各 个 类 的 协作 行为 随 经 过 天 数 的 变化 情况 可 视 化 





首先 我 们 来 观察 属于 类 1 的 用 户 群 。 这 些 用 户 从 一 开始 就 有 协作 这 
种 社交 行为 ， 但 是 在 这 之 后 协作 行为 并 没有 增加 ，2 周 后 这 些 用 户 的 登 
录 密 度 反 而 变 得 很 低 了 。 反 过 来 观察 类 3 或 者 类 4 的 用 户 群 ， 这 些 用 户 
也 在 初次 访问 游戏 时 就 有 协作 这 种 行为 ， 而 且 并 没有 就 此 结束 ， 在 后 半 
周 里 以 及 之 后 仍然 保持 了 这 种 行为 ， 到 2 周 后 用 户 的 登录 密度 就 变 得 比 
较 高 了 。 男 外 ， 通 过 仔细 观察 ,我 们 发 现 用 户 在 初次 访问 游戏 后 大 概 3 
天 到 4 天， 协作 行为 发 生 的 次 数 增加 了 。 由 此 可 知 ,“ 协 作 ” 行 为 逐渐 
增多 的 用 户 更 容易 稳定 访问 游戏 。 
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解决 对 策 


























对 开始 游戏 后 第 2 周 的 “登录 密度 ”影响 最 大 的 社交 行为 是 “ 协 


作 ” 行 为 
e@ 在 开始 游戏 后 “协作 ”的 社交 行为 慢 慢 增加 的 用 户 在 这 之 后 会 稳 
定 地 访问 游戏 


基于 上 述 结 果 ， 在 和 《 黑 猫 拼图 》 游 戏 的 策划 人 充分 讨论 后 ， 我 们 
得 到 了 下 面 的 解释 。 





e@ 初次 参与 游戏 的 用 户 尚 且 体 验 不 到 游戏 的 乐趣 所 在 
e@ 在 这 个 时 期 这 种 状态 下 用 户 并 不 能 充分 体验 到 和 朋友 之 间 发 生 协 
作 行为 的 好 处 


虽然 之 前 的 分 析 未 能 得 出 定性 的 因果 关系 ,但 是 因为 上 述 结果 来 自 
于 长 期 和 《 黑 猫 拼图 》 游 戏 打交道 的 游戏 策划 人 ， 所 以 这 些 结论 应 该 是 
准确 的 。 
因此 ， 基 于 上 述 定性 的 结论 和 本 次 分 析 的 结果 ， 我 们 将 推行 下 述 
策略 。 
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GD 在 用 户 开始 使 用 后 的 第 3 天 起 ， 为 了 鼓励 游戏 用 户 相 互 协 作 的 社 
交行 为 ， 调 高 打败 敌 方 首 领 的 难度 

@) 第 3 天 以 后 ， 为 了 促使 游戏 用 户 相互 协 作 ， 把 向 他 人 寻求 协作 的 
按钮 放置 得 更 加 醒目 
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小 结 














在 本 章 中 ， 我 们 利用 决策 树 分 析 进 行 了 数据 分 析 。 和 那些 利用 数据 
分 析 解 决 问题 的 案例 不 同 ， 本 案例 看 不 出 存在 什么 问题 ， 我 们 进行 的 是 
所 谓 探索 型 的 数据 分 析 。 在 这 类 数据 分 析 中 ， 为 了 验证 各 种 假设 ， 需 要 
耗费 相当 的 工夫 来 进行 数据 加 工 。 另 外 ， 在 验证 假设 的 时 候 ， 由 于 处 于 
一 种 问题 较 少 的 状态 ， 相 应 的 线索 也 比较 少 ， 因 此 一 般 会 使 用 多 次 循环 
的 方法 ， 这 就 必然 会 用 到 决策 树 等 数据 分 析 的 方法 。 

像 这 样 由 数据 驱动 ( 基于 数据 决定 下 一 步 所 采取 的 对 策 ) 来 推进 的 
“业务 改善 ” 仍 属 于 数据 分 析 的 范畴 ， 而 且 这 块 业 务实 际 上 只 能 由 数据 
分 析 来 完成 。 

分 析 流 程 第 9 章 中 数据 分 析 的 成 本 
现状 和 预期 
发 现 问 题 
数据 的 收集 和 加 了 
数据 分 析 
解决 对 策 
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人 详 细 的 RR 代码 

















生成 用 于 读 入 数据 的 函数 


和 之 前 一 样 ， 我 们 首先 需要 生成 用 于 读 入 “首次 访问 时 间 ”“DAU” 
“行为 日 志 ” 数 据 的 R 语言 函数 。 














library (plyr) 
library (foreach) 


# 获取 首次 访问 时 间 的 数据 
readInstall <- function(app.name, target.day) { 
base.dir <- "sample-data/section9/snapshot/install" 
f <- sprintf ("%s/%s/%s/install.csv'", base.dir, app.name, 
target .day) 
reagdeesv (ft neader — To StringsAshactorse = Bp) 


# 获取 DAU 数 据 
readDau <- function(app.name, date.from, date.to) { 
date.from <- as.Date(date.from) 
date.to <- as.Date (date.to) 
dates <- seq.Date(date.from, date.to, by = "day") 
ldply (foreach(day = dates, combine = rbind) %do% { 
base.dir <- "sample-data/section9/daily/dau" 
f <- sprintf ("%s/%s/%s/dau.csv'", base.dir, app.name, day) 
read.csv(f, header = T, stringsAsFactors = F) 


}) 





# 获取 行为 日 志 数 据 


readAction <- function (app.name, action.name, date.from, date.to) 
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date.from <- as.Date(dqate.fzrom) 
date.to <- as.Date(dqate.to) 
dates <- seq.Date(date.from, date.to, by = "day'") 
ldply (foreach(day = dates, combine = rbind) %do% { 
base.dir <- "sample-data/section9/daily/action" 
fs sprintf ("Ss/%s/Ss/Ss/%9.cev', 
base.dir, app.name, action.name, day, action.name) 
read.csv(f, header = T, stringsAsFactors = F) 


】) 


生成 函数 后 ， 我 们 就 可 以 读 人 各 类 数据 了 。 


R-CODE 


# Install 2 


meta eadnnetall( eame so 2 0 a0 

head (install) 

# DAU 

dau <- readDau("game-01", "2013-06-01", "2013-09-30" 
head (dau) 


® Install 

| ## log date user id install time gender generation device type : 
i 捧 1 2013-05-04 1 1367599368 F 40 ios | 
i 样 2 2013-05-14 2 1368514618 M 20 Android | 
i 样 3 2013-05-14 3 1368518894 F 20 Android | 
i #4 2013-05-14 4 1368520967 F 40 Android | 
i #5 2013-05-14 5 1368523275 F 20 Android | 
® DAU 


## log date app name user id 
## 1 2013-06-01 game-01 1701 
2 2013-06-01 game-01 1720 
3 2013-06-01 game-01 1087 
## 4 2013-06-01 game-01 1756 
5 2013-06-01 game-01 1218 
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行为 日 志 ( 战斗、 发 送 消 息 、 协 作 ) 


# battle 303。 


battle <- readAction("game-01", "battle", "2013-06-01", "2013-08-31" 
head (battle) 

# message 

msg <- readAction("game-01", "message", "2013-06-01", "2013-08-31") 
head (msg) 

# help 

hlp <- readAction("game-01", "help", "2013-06-01", "2013-08-31" 
head (hlp) 


@ 战斗 ( 行为 日 志 ) 


提 厅 log date app name action name user id count 
| 机 1 2013-06-01 game-01 battle 1087 1 
i 失 2 2013-06-01 game-01 battle 1570 1 
| 失 3 2013-06-01 game-01 battle 1570 1 
: 托 4 2013-06-01 game-01 battle 1257 1 
: 树 5 2013-06-01 game-01 battle 1257 1 


@ 发 送 消息 ( 行为 日 志 ) 


| ## 非 log date app name action name user id count | 
| ## 1 2013-06-01 game-01 message 8 8 
| ## 2 2013-06-01 game-01 message 13 10 
| ## 3 2013-06-01 game-01 message 28 2 
: ## 4 2013-06-01 game-01 message 44 2 
: ## 5 2013-06-01 game-01 message 49 2 


: ## log date app name action name user id count 
; 拼 1 2013-06-01 game-01 help 6 3 
i 覃 2 2013-06-01 game-01 help 8 13 
: ## 3 2013-06-01 game-01 help 10 3 
| 拼 4 2013-06-01 game-01 help 13 51 
; 拼 5 2013-06-01 game-01 help 28 6 
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计算 出 登录 密度 


# 合并 DAU 和 首次 访问 时 间 的 数据 

















daueinet < merge(dau nstaull by = seo suttixes 


区 世人 全 


# 限定 为 用 


ue le 
head (dau. inst) 





户 开始 游戏 后 第 7~13 天 的 数据 

dau.inst$log date <- as.Date(dau.inst$1l0g date) 

dau.inst$log date.inst <- as.Date(dau.inst$log date.inst) 

dau.inst$elapsed days <- as.numeric(dau.inst$log date - 
dau inst Lodate inst) 


dau nst /1S 
dau.inst [dau.inst$elapsed days >= 7 & 
dauy instoelapsedldayse < 
neacl(e ov ee TEN 





# 计算 出 登录 密度 


daumnse /le Lomede ddl (dau nse /lo usernli SUmmataze 
density = length(log date)/7) 


neag (dau nst /Ee ogden 


## user id density 


301 
310 
316 


.1429 | 
.1429 | 
.1429 : 





合并 分 析 对 象 用 户 和 登录 密度 数据 


R-CODE 


target.install < install [install$log date >= "2013-=06-01" a\09-05) 
installslog date <= "2013-08-25", |] 











# 合并 对 象 




















户 和 登录 密度 数据 


Garget Timstalnl lo in 
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merge (target nestall eau ns Bl looineos 
By = se IE 
target.install.login.ds$density <- 
ifelse(is.nal(target.install.login.dss$density), 0, 
target.install.login.ds$density) 
head (target .install .login.ds) 


user id 0g date install time gender generation device type density 
4 1693 2013=06-01 1370012721 PF 20 Android 
2 1694 2013-06-01 1370013166 20 Android 
8 1695 2013-06-01 1370013609 40 Android 
4 
5 
6 


1697 2013-06-01 1370014654 30 i0S 
1698 2013=06=01 1370015187 20 Android 


生成 关于 战斗 的 数据 


@ 生成 实数 数据 





F 
M 
1696 2013-06-01 1370014074 M 20 Android 
了 
了 
































R-CODE 

Sp a 09-06 

# 合并 战斗 行为 数据 和 用 户 首次 访问 时 间 的 数据 7 
paEelesnse qmergel(batelema mstal ny uemi tiie 


CO TY 
head (battle.inst) 

















# 计算 用 户 进行 战斗 的 时 间 和 首次 访问 时 间 的 时 间 差 

battle.inst$log date <- as.Date(battle.inst$log date) 
battle.inst$log date.inst <- as.Date(battle.inst$log date.inst) 
battle.inst$elapsed days <- as.numeric(battle.inst$log date - 
battle.inst$log date.inst) 



































# 限定 为 用 户 进行 战斗 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
battle.inst2 <= battle.instl[lbattle.inst$elapsed days >= 0 & 
battle.instSselapsed days <= 6, | 

















# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 

library (reshape2) 

battle.inst2$elapsed days <- paste0("d", battle.inst2$elapsed days) 
battle.inst2,.cast < deast (battle.inst2, User 1d ~ elapsed days, 
walue ver = oountu sum) 

head (battle.inst2.cast) 
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@ 输出 实数 数据 





1257 0 9 0 0 0 0 
1269 
1295 


@ 生成 比率 数据 和 主 成 分 ( PCA ) 数据 


# 生成 比率 数据 \0907/ 


battle.inst2.cast.prop <- battle.inst2.cast 
barblemneb ea ro 

battle.inst2.cast.prop[, -1]/rowSums (battle.inst2.cast.prop[, -1]) 
head (battle.inst2.cast .prop) 





# PCA 

bopear preomp(batblemneton as ale 

summary (b .pca) 

battle,inst2.cast ,pea <= data,frame(user id = battle,inst2.castSuser jd， 
beasx) 

head (battle.inst2.cast .pca) 


@ 输出 比率 数据 

| 托 user idd0 di d2 d3 d4d5 qd6 : 
i 所 1 1257 0 00.000 0.000 0 0 1 | 
i 所 2 1269 0 00.0000.000 0 0 1 | 
i 所 3 1295 0 00.000 0.000 0 0 1 : 
| 所 4 1512 0 00.000 0.000 1 0 0 | 
i 插 5 1570 0 01.000 0.000 0 0 0 : 
i 插 6 1611 0 00.125 0.875 0 0 0 : 
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@ 输出 主 成 分 ( PCA ) 数据 


| 机 user ia pC1 BC2 PC3 PC4 PC5 pc6 pC7 | 
| 振 1 1257 -0.43357 -1.66066 0.19505 0.2337 1.6915 1.0435 0.21524 | 
| 振 2 1269 0.09118 -1.21529 0.10527 0.0283 0.5834 0.4712 0.07861 | 
i 振 3 1295 -0.30238 -1.54932 0.17260 0.1823 1.4145 0.9004 0.18108 | 
i 振 4 1512 0.30613 -0.78562 0.06929 -0.2168 -0.6419 -0.2476 0.28923 | 
| 振 5 1570 0.29958 -0.08815 -0.73393 -1.2996 -0.3917 0.4036 -0.06374 | 
| 捐 6 1611 -0.44535 0.59944 -4.99863 2.4381 0.3789 -1.8523 -0.30154 | 





生成 发 送 消息 的 数据 


※ 这 一 步 的 操作 和 生成 关于 战斗 的 数据 是 一 样 的 ， 所 以 这 里 就 省 略 了 执 


@ 生成 实数 数据 


























R-CODE 
# 合并 发 送 消息 数据 和 用 户 首次 访问 时 间 的 数据 
msgmmete “mergelmnsg moo user Ee 


yeu 
head (msg.inst) 





# 计算 发 送 消息 的 时 间 和 首次 访问 时 间 的 时 间 差 

msg.inst$log date <- as.Date(msg.inst$log date) 

msg.inst$log date.inst <- as.Date(msg.inst$log date.inst) 

msg.inst$elapsed days <- as.numeric(msg.inst$log date - 
msg.inst$log date.inst) 











# 限定 为 发 送 消息 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
msg.inst2 <- msg.inst [msg.inst$elapsed days >= 0 & msg.inst$elapsed days 
<= 6, ] 




















# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 

msg.inst2$elapsed days <- paste0("d", msg.inst2$elapsed days) 
msg.inst2.cast <- dcast (msg.inst2, user id ~ elapsed days, value. 
var eoumt Sar 














head (msg.inst2.cast) 
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@ 生成 比率 数据 、 主 成 分 ( PCA ) 数据 


R-CODE 


4 生成 比率 数据 


meg eneas ro moo ns ees 

magRinmst2casteproDE moinst2 Cast pro 
su/ rowsunmsl(mse nst2 neast rope 由 

head (msg.inst2.cast .prop) 





# PCA 
npeas “oneconp (mnao nt Na ous 
summary (m.pca) 


msg.inst2.cast.pea <- data.frame(user id = msg.inst2.cast$user iqd, 
m.pcas$x) 
head (msg.inst2.cast .pca) 





生成 协作 数据 


※ 这 一 步 的 操作 和 生成 关于 战斗 的 数据 是 一 样 的 ， 所 以 这 里 就 省 略 了 执 














R-CODE 
合并 用 户 协作 数据 和 首次 访问 时 间 的 数据 


TiSEE mergelhlp install ey ue surtnese c(insey 
head (hlp.inst) 




















# 计算 发 生 协 作 的 时 间 和 首次 访问 时 间 的 时 间 差 

hlp.inst$log date <- as.Date(hlp.inst$log date) 

hlp Minste leondate nse as Datel(hlpe mst leadate se) 
hlp.inst$elapsed days <- as.numeric (hlp.inst$log date - 
heinste oadates nste) 























# 限定 为 发 生 协 作 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
hip.inst2 <- hilp.inst[hlip.inst$elapsed days >= 0 & hip.inst$elapsed 
SEE SG | 














# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 
hip.inst2$elapsed days <- paste0("d", hilp.inst2$elapsed days) 
heinstoncast < dcase (hp nt useriid elapsedrdaysp ee valves 
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Var eowmt Sun 
head (hlp.inst2.cast) 


@ 生成 比率 数据 、 主 成 分 ( PCA ) 数据 


R-CODE 


# 生成 比率 数据 W091 


hipmnstomeast ron < hl nstoNeast 
hlpeimnst2o Na prop Ul mstoNeast ropln 
-1] /rowSums (hlp.inst2.cast.prop[, -1]) 

head (hlp.inst2.cast .prop) 





# PCA 
nepean< preomp(nlp nstor castl Mcale = 
summary (h.pca) 


hlp.inst2.cast.pea < data.frame(user id = hip.inst2.castsuser id, 
h.pcasx) 
head (hlp.inst2.cast .pca) 





对 行为 日 志 进 行 聚 类 


R-CODE 
# 用 来 生成 关于 类 数据 的 函数 \09-12/ 
createClusterData <- function(aname, x, x.prop, x.pca) { 
set.seed(10) 
df <- ldply(foreach(i = 3:6, combine = rbind) %do% { 





























km <- kmeans (x[, -1], i) 
km.prop <- kmeans (x.prop[, -1], i) 
km.pca <- kmeans (x.pca[, -1], i) 


data.frame (user id = x$user id, cluster.type = sprintf 
("$s$02d", aname, 
elus ter i km eluseer Dor el Ger 
km.prop$cluster, 
peaveluster ld = km pear else 
}) 
clustersmelte. melt (dE eid varse uci elusterat Yen 
dcast (cluster.melt, user id ~ cluster.type + variable) 


# 战斗 


battle.cluster <- createClusterData("battle", battle.inst2.cast, 
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battle.inst2.cast .prop, 
patbue noe a ea 
head (battle.cluster) 


# 发 送 消息 
msg.cluster <- createClusterData("msg", msg.inst2.cast, 
msgrnet os east ro 
msg.inst2.cast .pca) 
head (msg.cluster) 


# 协作 
hlip.cluster <- createClusterData("hlp", hilp.inst2.cast, 
hon st oeas te oro 
hppainst2r easte eay 
head (hlp.cluster) 


@ 对 战斗 数据 进行 聚 类 后 的 结果 


## user id battle03 freq.cluster.id battle03 prop.cluster.id 


i 振 1 1257 1 1 
| ## 2 1269 证 1 : 
| ## 3 1295 和 1 : 
| ## 4 1512 3 1 : 
i 振 5 1570 3 3 : 
; 振 6 1611 3 


我 们 将 用 户 的 登录 密度 和 与 “战斗 ”相关 的 类 数据 合并 。 








> 与 “发 送 消息 ”相关 的 类 数据 合并 
> 与 “协作 ”相关 的 类 数据 合并 
二 用 Oo” 替换 SA 








R-CODE 


# cluster data WB 


cluster.data <- merge (target.install.login.ds, battle.cluster, 
by useraid al) 
cluster.data <a merge (cluster.data, msg.cluster, by = "user id", all.x = T) 
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Clustersaata <- merge (cluster.data, hip.cluster, by = "user ia all.x = T) 
clustersdatalls nalteluetere datal< 0 


head (cluster.data) 





按照 登录 密度 由 小 到 大 的 顺序 重新 排列 


R-CODE 
# 将 按 列 排列 的 类 转换 成 按 行 排列 的 形式 144 
eluster datasmelte melialcenusterdaEalEct2S dvars cusern 


Td vdensat yh 


# 按照 类 的 种 类 或 编号 计算 各 个 类 的 平均 登录 密度 

cuseermadaEaao dd (clu ter at nel (an ele) 
summarize, average.density = mean(density)) 

head (cluster.data.avg) 


# 重新 赋予 一 个 新 的 类 编号 

cluster.data.avg <- arrange(cluster.data.avg, variable, average. 
density) 

Cluster.data.avg <- ddply(cluster.data.avg, . (variable), transform, 
au Son a ey 

















# 按照 新 的 类 编号 进行 合并 

cluster.data.melt2 <- merge(cluster.data.melt, ciluster.data.avg, by = 
c("variable", "value")) 

head (cluster.data.melt2) 


# 将 类 的 种 类 整理 成 按 列 排列 的 形式 

clusbersdata2 aqcasalclusEezaaEamenE2n Userid nasnsne = 
variable, value.var = "value2") 

head (cluster.data2) 
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## user id density battle03 freqg.cluster.id battle03 prop.cluster.id 


i 振 1 1693 0 0 0 | 
i 振 2 1694 0 0 0 | 
i 样 3 1695 0 0 0 | 
| 样 4 ”1696 0 0 0 
i 样 5 1697 0 0 0 
: 样 6 ”1698 0 0 0 
| 


## hlp06 freq.cluster.id hlp06 prop.cluster.id hlp06 pca.cluster.id | 
1 样 工 0 0 
## 2 
1 覃 3 


决策 树 分 析 的 执行 和 可 视 化 


在 有 R 语言 中 ， 实 现 决策 树 分 析 有 很 多 种 方法 ， 这 里 我 们 使 用 rpaxtt 
程序 包 中 的 rpart 水 数 。 


R-CODE 
Me ray (Dani) O915) 


fi roart(density ~ 0 colnetersdata2 le a 
otaie (Gaalel) 





brary (arty mnt) 
Palos(as paney (Ee pean = 
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通过 观察 哪个 属性 位 于 最 上 面 
hlp04_pca.clusterid 






















的 节点 ， 可 以 确认 类 的 个 数 为 4 
时 的 协作 主 成 分 类 的 影响 最 大 








< 三 1.5 


























hlp06_prop.cluster.id 





其 次 是 类 的 个 数 为 68 
协作 比率 类 








最 右边 的 类 
在 第 2 周 的 
3 登录 密度 在 


| 0.7~1， 表 
msg04_prop.cluster.id 明 用 户 到 访 <25 >=25 











































































比较 稳定 
lb 三 1.5 
A 
Node 4(n=2538) Node 4(n=136) Node 4(n=135) Node 4(n=18) Node 4(n=141) 
证 司 [e) 
0.8 
O 
0.6 加 
0.4 
O 
0.2 
O 
0 — 























协作 主 成 分 类 的 详细 内 容 


cluster.data3 <- 1 
== "nhlp04 pea.cluster.id", 

euserm a vernalensE ye yl 
names (cluster.data3) [3] <- "cluster" 


ne oneastsonrop2 -menge (nl nt eb ro el uteradaarn 
byEE usernld) 


table (hlp.inst2.cast.prop2$cluster) 


## 1 2 3 4 
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计算 各 个 类 的 平均 登录 密度 


hlp.inst2.cast.summary <- ddply(hlp.inst2.cast.prop2, . (cluster), 3.174 
summarize, 

login.density = average.density[1], d0 = sum(d0)/length(user id) ， 

Ge un(an /engtn (sereio 

d2 suml(o2 lengehl user lo um(os lengeh( ur 

d4 sum(d4)/length (user id), 

d5 = sum(d5)/length(user id), d6 = sum(d6)/length(user id)) 
hlp.inst2.cast.summary 


0.6103 0.1605 0.0735 0.04937 0.04066 0.03247 0.03318 : 
0.2809 0.1306 0.1249 0.09879 0.10272 0.14187 0.12020 : 
0.2191 0.2545 0.1302 0.13166 0.10181 0.07141 0.09137 | 
0.1004 0.0901 0.2036 0.12391 0.22772 0.14576 0.10855 | 








将 各 个 类 的 平均 登录 密度 可 视 化 





library (ggplot2) 
ggplot (hlp.inst2.cast.summary, aes(x = cluster, y = login.density)) + 
geom line() + 
geom point () 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 














> 





























是 长 期 
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类 1 和 类 2~4 的 
登录 密度 差别 
很 大 






E 成 分 类 








将 协作 行为 按照 类 和 时 间 可 视 化 
hlp.inst2.cast.summary.melt <- melt (hlp.inst2.cast.summary[, -2], 09-194 


二 RERWVTaRSEE ce lester 

hlp.inst2.cast.summary.melt$days <- 

as.numeric(substr (hlp.inst2.cast.summary.melt$variable, 2, 3)) 
hlp.inst2.cast.summary.melt$cluster <- 

as.factor (hlp.inst2.cast.summary.melt$cluster) 


ggplot (hlp.inst2.cast.summary.melt, aes(x = days, Yy = value, col = 
cluster)) 
+ geom line() + geom point () 


So 第 2 周 的 “登录 密度 ”影响 最 大 的 社交 行为 是 “ 协 
作 ” 对 行为 

e@ 在 开始 游戏 后 “协作 ”的 社交 行为 慢 慢 增 加 的 用 户 在 这 之 后 会 稳 
定 地 访问 游戏 
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户 在 开始 游戏 后 就 有 


类 

了 “协作 ”行为 ， 但 之 后 这 
种 行为 发 生 的 次 数 不 断 下 降 ， 
从 














上 页 的 图 中 可 以 看 出 2 周 后 这 



































类 登录 密度 变 得 很 低 。 
类 3 和 类 4 的 用 户 在 开始 游戏 3 



































天 后 “协作 ”行为 开始 变 得 
多 了 起 来 ， 在 这 之 后 持续 增 
加 ，2 周 


高 了 














后 登录 密度 就 已 经 很 








days 


cluster 
1 
Bs2 
3 


+ 4 
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[分 析 应 用 ] 篇 


第 10 章 
案例 @ 一 机 器 学 习 


如 何 让 组 队 游戏 充满 乐趣 





选择 能 够 生成 高 精度 预测 模型 的 学 习 器 


公司 的 游戏 运营 策划 人 员 最 近 针 对 《 黑 猪 拼图 》 游 戏 提出 了 
个 新 的 活动 方案 ， 即 用 户 可 以 通过 组 队 的 方式 相互 协作 共 
同 打 败 敌 方 首领 。 为 了 让 这 个 活动 给 用 户 带 来 充分 的 乐趣 ， 
我 们 希望 可 以 促使 在 相同 时 间 段 来 访 的 用 户 组 队 一 起 参与 游 


戏 ， 那 么 我 们 该 怎么 做 呢 ? 
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[区 使 组 队 作成 的 乐趣 荫 























《 黑 猫 拼图 》 游 戏 的 运营 状况 稳定 ， 实 现 了 良好 的 商业 验证 循环 
在 上 一 章 中 我 们 也 看 到 了 ,《 黑 猫 拼图 》 游 戏 目前 并 没有 什么 大 的 

















问题 ， 而 且 还 是 公司 稳定 的 收益 来 源 。 在 很 多 商业 领域 中 ， 所 谓 的 稳定 
状态 ， 是 指 策 划 人 员 在 充分 讨论 的 基础 上 能 够 把 握 用 户 体验 这 样 一 种 状 
态 ， 这 种 状态 一 般 出 现在 所 策划 和 实施 的 服务 得 到 用 户 的 大 力 支 持 之 


后 。 在 达到 稳定 状态 后 ， 为 了 获得 更 多 的 用 户 ， 往 往 会 在 游戏 中 提供 新 


的 服务 ， 
同村 









































同时 也 会 准备 新 的 策划 方案 以 应 对 新 的 挑战 或 进行 尝试 。 
FE， 在 《 黑 猫 拼图 》 游 戏 达 到 稳定 的 运营 状态 后 ， 游 戏 策划 人 员 


为 了 提升 游戏 用 户 参 与 游戏 的 乐趣 ， 讨 论 和 实施 了 多 种 策划 方案 ， 并 在 
方案 实施 后 通过 数据 验证 来 判断 策划 方案 的 好 坏 ， 从 而 形成 了 一 套 完整 
良好 的 商业 验证 循环 (PDCA )。 








良好 的 商业 验证 循环 (PDCA) 
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一 种 新 的 游戏 方式 : 组 队 作 战 


在 这 一 过 程 中 ， 有 位 策划 人 员 提 出 了 一 个 策划 方案 ， 那 就 是 在 游戏 
中 允许 多 名 用 户 组 成 团队 ， 通 过 相互 协作 的 方式 击败 强大 的 敌 方 首领 。 
而 在 组 队 作战 中 最 重要 的 就 是 这 个 队伍 该 如 何 组 建 。 目 前 的 情况 是 考虑 
通过 游戏 同伴 间 相 互 应 允 的 方式 来 组 队 ， 但 是 也 有 人 提出 应 考虑 下 是 否 
还 有 别 的 更 能 提升 组 队 作战 乐趣 的 组 队 方式 。 

因此 ， 我 们 希望 灵活 运用 数据 分 析 的 方法 找到 一 种 组 队 方 式 ， 能 
使 组 队 作战 的 乐趣 最 大 化 。 在 本 例 中 ， 由 于 我 们 所 面临 的 问题 并 不 是 显 
而 易 见 的 ， 因 此 很 难 确定 现状 和 预期 。 但 我 们 可 以 先 将 “目前 的 组 队 方 
式 并 不 是 最 合适 的 ”作为 现状 ， 而 将 “该 组 队 方 式 是 最 合适 的 ”作为 我 
们 的 预期 。 
































第 10 章 的 现状 和 预期 
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[ez 利用 数据 分 析 为 服务 
增加 附加 价值 




















尝试 定义 组 队 作 战 的 乐趣 


本 章 的 案例 和 第 9 章 一 样 ， 我 们 需要 解决 的 并 不 是 一 个 显而易见 的 
问题 ， 而 是 希望 通过 灵活 运用 数据 分 析 来 提升 组 队 作战 的 乐趣 。 

那么 ,“ 组 队 作战 的 乐趣 ” 指 的 又 是 什么 呢 ? 在 上 一 章 中 我 们 已 经 
谈 到 了 ， 每 个 人 对 于 “乐趣 ”的 看 法 各 有 不 同 ， 因 此 光 说 “乐趣 ”是 很 
难 让 讨论 进行 下 去 的 ， 我 们 需要 先 规定 何 为 “组 队 作战 的 乐趣 ”。 为 此 ， 
我 们 和 游戏 策划 部 门 一 起 进行 了 探讨 。 在 经 过 多 次 讨论 后 ， 我 们 得 到 了 
如 下 意见 。 
























































“用 户 即使 参与 了 组 队 ， 但 如 果 该 队伍 中 的 成 员 很 少 能 在 相同 时 间 
段 进行 游戏 ， 用 户 就 会 产生 一 种 队伍 里 参与 游戏 的 人 数 太 少 的 错 
觉 ， 从 而 也 很 难 体验 到 组 队 作战 的 乐趣 。 





依照 这 个 意见 ， 我 们 大 致 得 出 了 “组 队 作战 的 乐趣 ”的 定义 ， 即 : 


和 同伴 一 起 实时 战斗 的 感觉 


如 果 团 队 成 员 能 够 把 在 同一 时 间 参 与 游戏 的 人 汇集 在 一 起 ， 就 能 享 
受到 组 队 作战 的 乐趣 。 因 此 ， 我 们 就 将 “组 队 作战 的 乐趣 ”量化 定义 成 
“队伍 中 能 在 相同 时 间 段 共同 进行 游戏 的 人 数 "， 并 灵活 运用 数据 分 析 探 
讨 把 在 相同 时 间 段 进行 游戏 的 人 汇集 起 来 的 可 能 性 。 
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整理 本 次 分 析 的 流程 


由 于 我 们 已 经 从 数据 分 析 的 角度 定义 了 组 队 作战 的 乐趣 ， 下 面 我 们 
来 整理 一 下 数据 分 析 的 流程 。 本 例 中 数据 分 析 的 具体 步骤 如 下 。 





@ 目的 

希望 组 队 时 队伍 中 相同 时 间 段 进行 游戏 的 成 员 较 多 
@ 分 析 方 法 

根据 用 户 过 去 的 访问 情况 ， 预 测 每 个 用 户 第 二 天 什么 时 间 段 来 访 
@ 解决 对 策 

基于 分 析 的 结果 ， 将 可 能 在 相同 时 间 段 来 访 的 用 户 置 于 同一 组 














用 户 A 之 前 的 访问 情况 | 用 户 A 明天 几 点 会 来 ? 





周一 周一 同 二 周三 。 周三 7 
7 点 ”23 点 23 点 7 点 。 ”23 点 fe 




















如 果 根 据 数据 分 析 的 结果 不 能 够 预 估 每 个 用 户 第 2 天 来 访 的 时 间 
段 ， 那 么 我 们 就 需要 将 策划 方案 变更 为 其 他 更 妥当 的 方案 。 而 如 果 我 们 
能 够 预 佑 每 个 用 户 第 2 天 来 访 的 时 间 段 ， 那 么 就 可 以 在 游戏 中 利用 分 析 
的 结果 ， 让 用 户 感受 到 新 的 游戏 乐趣 。 而 在 后 一 种 情况 下 ， 无 论 某 个 人 
在 这 个 领域 里 的 经 验 有 多 丰富 ， 他 也 无 法 预 佑 每 个 用 户 第 2 天 来 访 的 时 
间 段 ， 因 而 成 就 了 数据 分 析 作为 游戏 附加 价值 的 意义 。 
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在 将 | 
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讨论 统计 单位 


下 面 我 们 来 讨论 本 案例 分 析 中 所 需 的 数据 。 在 本 例 中 ， 我 们 需要 知 
道 “ 每 个 用 户 可 能 会 在 哪些 时 间 段 来 访 ” ， 而 每 个 用 户 以 前 的 来 访 时 间 
段 都 记录 在 各 个 行为 日 志 中 。 

然而 ， 现 有 的 日 志 中 只 记录 了 每 个 具体 的 行为 发 生 于 几 点 几 分 几 
秒 , 或 者 只 以 天 为 单位 统计 数据 。 考 虑 到 在 游戏 中 的 应 用 ， 即 使 以 秒 为 
单位 进行 的 数据 统计 ， 也 很 难以 秒 为 单位 来 制定 游戏 策划 方案 。 男 外 ， 
由 于 游戏 的 用 户 数 量 并 不 是 太 大 ， 如 果 以 秒 为 单位 来 统计 ， 我 们 就 很 难 
把 握 用 户 在 使 用 时 间 上 的 倾向 。 同 样 ， 即 使 数据 是 以 天 为 单位 统计 的 ， 
按 天 来 制定 游戏 策划 方案 也 比较 困难 。 因 此 我 们 首先 和 游戏 的 策划 人 员 
进行 了 讨论 ， 并 确定 了 以 小 时 为 单位 来 向 用 户 提供 组 队 作战 的 服务 。 然 
后 我 们 对 每 小 时 内 所 有 的 用 户 行为 数量 进行 了 统计 ， 并 将 其 作为 中 间 数 
据 输 出 。 

之 后 ,我 们 基于 上 述 所 有 用 户 行为 的 中 间 数 据 ， 对 用 户 过 去 的 使 用 
情况 和 第 2 天 的 使 用 情况 进行 了 相关 性 分 析 ， 发 现 用 户 的 某 个 行为 A 与 
第 2 天 用 户 的 使 用 情况 关系 紧密 。 也 就 是 说 ， 如 果 我 们 以 用 户 的 行为 A 
作为 参考 ， 也 许可 以 推断 出 用 户 第 2 天 来 访 的 时 间 段 。 为 了 说 明 方 便 ， 
下 文中 我 们 只 给 出 行为 A 的 数据 作为 中 间 数 据 。 
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生成 以 时 间 段 作为 列 的 数据 


下 面 我 们 利用 行为 A 的 中 间 数 据 来 生成 分 析 用 的 数据 。 首 先 ， 读 和 人 
行为 A 的 中 间 数 据 。 


























@@ 行为 A 的 中 间 数 据 


使 用 时 间 段 。 游戏 名 称 用 户 ID 使 用 次 数 








2013 对 




















2013 纯 























2013 对 


























2013 了 





























2013 归 






































行为 A 的 中 间 数 据 记 录 了 每 个 时 间 段 、 每 个 用 户 来 访 了 多 少 次 的 数 
据 ， 但 是 这 样 的 数据 很 难 用 来 进行 预测 分 析 ， 所 以 我 们 需要 将 数据 整理 
成 以 时 间 段 作为 列 的 形式 。 








@ 以 时 间 段 作为 列 的 数据 


0 点 1 点 后 | 尽 … 21 点 22 点 23 点 





















































生成 7 天 的 以 时 间 段 作为 列 的 数据 


上 面 得 到 的 是 1 天 的 以 时 间 段 作为 列 的 数据 。 这 样 的 数据 看 上 去 已 
经 可 以 用 于 数据 分 析 了 ,但 却 忽 略 了 工作 日 和 周末 节假日 等 因素 的 影 
响 。 为 了 消除 这 种 影响 ， 我 们 使 用 过 去 7 天 的 数据 ， 并 将 数据 整理 成 以 
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7 天 的 各 个 时 间 段 作为 列 的 形式 。 在 整理 完成 的 表格 中 ， 每 个 单元 格 表 
示 了 在 周 几 的 几 点 某 个 用 户 是 否 发 生 了 茶 种 行为 (On / Off )。 


@ 以 7 天 内 的 各 个 时 间 段 作为 列 的 数据 


周 日 22 点 周 日 23 点 

















1 71 Off Off si Off Off 
2 78 Off Off 2 Off Off 
3 94 Off Off es Off Off 
4 99 Off Off 人 Off Off 
5 131 Off Off i Off Off 



































生成 包含 自 变量 和 因 变 量 的 数据 


现在 我 们 已 经 获得 了 7 天 的 以 时 间 段 作为 列 的 数据 ， 但 是 在 这 份 数 
据 中 只 有 自 变 量 ， 那 么 因 变量 在 哪 呢 ? 

在 本 例 中 ， 因 变量 和 自 变 量 的 含义 一 样 ， 指 的 是 某 天 的 某 个 时 间 段 
用 户 是 否 来 访 。 但 是 ， 因 变量 的 “ 某 天 ” 指 的 是 自 变量 的 7 天 之 后 的 下 
一 天 (下 个 周一 的 1 点 至 23 点 ) 下 面 我 们 将 这 两 部 分 数据 合并 起 来 。 





@ 新 增 了 因 变 量 的 数据 




















” 周 日 23 点 
1 12 Off Off 生 Off Off Off 
人 66 Off Off EN Off Off Off 
3 72 Off Off SR Off Off Off 
4 78 Off Off ‘0 Off Off Off 
5 97 Off Off 5 Off Off Off 



































经 过 上 述 处 理 ， 这 些 数据 就 可 以 用 于 数据 分 析 了 。 
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Te 构建 预测 模型 








( 逻辑 回归 、k 近 邻 法 、 朴 素 贝 叶 斯 分 类 器 、SVM、 随 机 森林 ) | 

















生成 预测 模型 的 步骤 


那么 我 们 该 如 何 得 到 预测 模型 呢 ? 首先 ， 不 是 所 有 的 数据 都 可 以 用 
来 构建 预测 模型 的 。 特 别 是 数据 分 析 的 初中 级 人 员 ， 如 果 按 照 书 上 或 网 
上 所 说 的 生成 预测 模型 的 步骤 来 操作 ， 经 常会 发 现 书 上 或 网 上 的 步骤 并 
不 适用 于 实际 的 数据 。 














国 “ 规 则 性 ”和 “一 致 性 ”的 验证 


























用 来 生成 预测 模型 的 工具 有 很 多 ， 根 据 它 们 的 后 台 逻 辑 来 看 ， 这 些 
工具 各 有 优 劣 。 
下 面 两 个 条 件 。 











但 无 论 使 用 哪 种 工具 ， 要 想得到 预测 模型 ， 就 必须 满足 





@ 数据 要 有 某 种 程度 的 规则 性 
@ 数据 要 有 某 种 程度 的 一 致 性 





满足 了 上 述 条 件 ， 就 很 有 可 能 顺利 得 到 预测 模型 。 具 体 来 说 ， 
“规则 性 ”是 针对 数据 行列 的 列 来 说 的 ， 而“ 一致 性 ”是 针对 数据 行列 
的 行 来 说 的 。 在 本 章 的 案例 中 ， 每 一 列表 示 的 是 用 户 的 访问 时 间 ， 所 以 





我 们 需要 验证 


























] 户 的 访问 是 否 具有 大 致 的 周期 性 。 而 数据 的 每 一 行 表示 























的 是 每 一 位 用 户 ， 所 以 我 们 需要 验证 用 户 之 间 是 否 具有 大 体 相似 的 访问 








行为 。 


也 就 是 说 ， 











我 们 在 生成 预测 模型 的 时 候 ， 首 先 需 要 做 的 就 是 验证 所 





图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 

















242 | 第 10 章 ， 如 何 让 组 队 游戏 充满 乐趣 




















使 用 的 数据 是 否 具 备 “ 规 则 性 ”和 “一 致 性 ”。 

就 拿 本 章 的 案例 来 说 ， 如 果 在 验证 数据 规则 性 的 时 候 发 现 并 不 存在 
周期 性 ， 那 就 意味 着 用 户 的 使 用 时 间 段 完全 是 随机 的 ， 有 时 是 早上 来 
访 ， 有 时 是 中 午 来 访 。 或 者 ， 如 果 发 现 数据 不 存在 一 致 性 ， 那 就 是 说 各 
个 用 户 的 来 访 时 间 也 是 随机 的 ， 有 的 用 户 只 在 早上 来 访 ， 有 的 用 户 则 是 
经 常 来访 。 当 数据 存在 上 述 情况 时 ， 预 测 模型 是 很 难 构建 的 。 当 我 们 验 
证 了 数据 ， 并 确认 数据 没有 “规则 性 ”和 “一 致 性 ”时 ， 要 么 就 此 放弃 
生成 预测 模型 ， 要 么 对 数据 进行 归纳 ， 使 得 数据 具备 “规则 性 ”和 “一 
致 性 ”。 例 如 我 们 可 以 将 数据 以 天 为 单位 归纳 起 来 ,或 者 只 抽取 出 满足 
某 些 条 件 的 用 户 (例如 深夜 必然 来 访 的 用 户 )， 使 数据 具备 “规则 性 ” 
或 “一 致 性 ”， 这 些 都 属于 “数据 的 归纳 ”。 


围 去 除 噪声 数据 

在 使 用 统计 工具 的 时 候 ， 无 论 哪 种 工具 都 会 受到 来 自 噪声 数据 的 影 
响 。 即 使 某 些 工具 受 噪声 数据 的 影响 较 小 ， 通 常 也 要 先 去 除 噪声 数据 再 
生成 模型 ,这样 得 到 的 模型 才 比 较 好 。 在 商业 领域 的 模型 生成 中 ， 如 何 
定义 噪声 数据 是 一 个 难点 。 我 们 所 需 的 预测 模型 不 仅 要 推理 严谨 ， 还 需 
要 具有 实际 的 应 用 价值 。 因 此 在 完成 数据 分 析 之 后 ， 我 们 需要 和 游戏 的 
策划 人 员 确认 ， 是 否 可 以 将 高 于 某 个 净值 或 者 低 于 某 个 浆 值 的 数据 定义 
为 噪声 数据 ， 另 外 还 需要 确认 对 这 个 阔 值 附近 的 数据 进行 四 售 五 人 是 否 
J 


适 。 


















































































































































国 选 择 所 使 用 的 工具 

生成 预测 模型 的 工具 有 很 多 ， 到 目前 为 止 还 没有 哪个 工具 能 将 之 
前 所 有 的 工具 汇集 在 一 起 。 也 就 是 说 ， 对 某 种 数据 而 言 ， 有 的 工具 可 以 
很 好 地 得 到 预测 模型 ， 而 有 的 工具 却 不 能 ， 因 此 我 们 需要 考虑 数据 和 工 
具 是 否 相 配 。 如 果 已 经 积累 了 足够 的 数据 分 析 经 验 ， 在 验证 基础 数据 
时 ， 就 可 以 在 一 定 程度 上 判断 出 哪 种 工具 最 适合 该 数据 。 但 如 果 有 时 间 
的 话 ， 最 好 还 是 尽 可 能 地 使 用 多 种 工具 进行 验证 ， 并 选择 精度 最 高 的 
工具 


-NO 
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验证 数据 的 “规则 性 ”和 “一 致 性 ” 


下 面 我 们 首先 来 验证 数据 的 “规则 性 ”和 “一 致 性 ”。 对 于 用 户 的 
“一 致 性 ”， 我 们 可 以 通过 第 8 章 介绍 的 聚 类 分 析 的 方式 来 验证 。 如 果 数 
据 不 具备 “规则 性 ”或 “一 致 性 "， 那 么 聚 类 就 不 可 能 得 出 结果 。 下 图 
给 出 了 对 行为 A 一 周 的 数据 进行 规则 化 和 主 成 分 分 析 后 进行 k-means 聚 
类 的 结果 。 























一 一 早 7 点 来 访 型 ( 9.5% ) 一 一 早 8 点 来 访 型 | 9.5% ) 一 一 周末 来 访 型 ( 8.1% ) 一 一 上 午 来 访 型 ( 12.0% 】 一 一 随时 来 访 型 | 47.9% ) 一 一 深夜 来 访 型 | 12.8% ) 


yu qa YY 
沁 闫 闫 次 类 











图 中 的 横 轴 表示 “1 周 的 时 间 轴 ”， 纵 轴 表 示 “ 在 这 1 周 中 某 个 类 的 
用 户 的 来 访 比 率 ”。 通 过 上 图 可 以 得 知 ， 在 所 有 的 用 户 当 中 ， 在 周末 休 
息 日 密集 来 访 的 “周末 来 访 型 ”用 户 占 总 体 的 8.1%， 而 “时 7 点 来 访 
型 ”和 “ 早 8 点 来 访 型 ”的 用 户 应 该 是 那些 在 上 班 和 上 学 途中 来 访 的 用 
户 ， 这 两 类 用 户 一 共 占 总 体 的 19.2%。“ 上 午 来 访 型 ”用 户 占 总 体 的 
12%， 而 经 常 在 23 点 或 24 点 来 访 的 “深夜 来 访 型 ”用 户 占 总 体 的 
12.8%。 那 些 无 论 何 时 都 可 能 来 访 的 “随时 来 访 型 ”用 户 占 到 了 47.9%。 

可 以 看 出 在 将 聚 类 的 类 的 个 数 设 为 6 个 时 ， 能 够 较 好 地 将 不 同类 型 
的 用 户 区 分 开 。 虽 然 关 于 各 个 用 户 的 行为 A 的 数据 非常 散乱 ， 但 是 如 果 
放 在 1 周 的 时 间 长 度 里 ， 用 户 的 行为 就 可 以 被 分 别 分 到 6 个 类 中 ， 而 每 
个 类 的 用 户 都 有 各 自 的 行为 模式 。 由 此 我 们 验证 了 数据 具备 “规则 性 ” 
和 “一 致 性 "， 下 面 我 们 来 讨论 如 何 从 行为 数据 生成 预测 模型 。 


在 进行 多 变量 分 析 或 机 器 学 习 时 ， 如 果 分 析 对 象 数据 中 混 人 了 噪声 
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数据 ， 那 么 生成 的 模型 很 可 能 精度 很 差 ， 因 此 我 们 需要 先进 行 噪声 数据 
的 处 理 。 

首先 ， 在 和 公司 策划 负责 人 进行 讨论 之 前 ， 我 们 需要 大 致 选 定 噪声 
数据 的 阔 值 。 根 据 数据 的 “规则 性 ”和 “一 致 性 ”， 我 们 先 假定 “第 2 
天 用 户 会 在 和 之 前 相同 的 时 间 来 访 ”。 然 后 我 们 将 某 一 天 的 数据 作为 正 
解数 据 ， 用 户 “ 来 访 ” 和 “未 来 访 ” 作 为 类 别 变 量 ， 根 据 用 户 过 去 的 行 
为 日 志 ， 来 推测 用 户 第 2 天 是 否 会 来 访 。 

在 本 例 中 ， 在 生成 模型 时 存在 噪声 数据 。 这 些 噪声 数据 就 是 在 单 
位 时 间 内 来 访 只 有 1、2 次 的 日 志 数 据 。 如 果 根 据 这 些 数据 就 认定 用 
户 “ 来 访 过 ”的 话 ， 那 就 可 能 将 用 户 的 一 些 误 操 作 当 作 是 来 访 ， 从 而 很 
侍 得 到 准确 的 模型 。 因 此 ， 当 单位 时 间 内 来 访 次 数 较 少 的 时 候 ， 我 们 需 
要 选 定 一 个 噪声 数据 的 闷 值 ， 判 断 具 体 要 达到 哪个 数值 才 可 认定 为 “来 
访 过 。 

另外 ， 使 用 过 去 多 长 时 间 的 行为 数据 才能 预测 用 户 第 2 天 的 行为 也 
需要 仔细 其 酌 。 比 如 ， 用 户 之 前 一 直 是 在 20 点 来 访 ， 而 昨天 20 点 由 于 
某 种 原因 用 户 未 能 来 访 。 要 想 包含 这 种 情况 ， 就 需要 累积 至 少 过 去 2 天 
的 行为 数据 。 也 就 是 说 ， 我 们 需要 仔细 其 酌 使 用 过 去 多 长 时 间 的 历史 数 
据 才 是 比较 合适 的 。 

要 想 算 出 最 合适 的 时 长 ， 需 要 “单位 时 间 内 行为 次 数 的 阔 值 ”和 “ 行 
为 次 数 的 累积 期 间 ” 这 2 个 变量 。 我 们 将 “行为 次 数 的 阔 值 ” 定 在 1~ 
1000， 而 “行为 次 数 的 累积 期 间 ” 定 在 过 去 1~30 天 ， 然 后 通过 枚 举 的 
方式 找 出 最 能 说 明 情 况 的 数值 。 

能 将 事物 分 到 各 个 类 别 下 的 模型 称 为 分 类 模型 。 分 类 模型 的 判别 性 
能 是 通过 Precision ( 准确 率 ) 和 Recall ( 召回 率 ) 这 2 个 指标 来 进行 评 
价 的 。Precision 反映 的 是 预测 准确 的 数量 ， 预 测 准确 的 次 数 越 多 ， 这 个 
数值 就 武大 。 而 Recall 反映 的 是 预测 准确 的 概率 ， 如 果 预 测 百 分 之 百 地 
准确 ， 那 这 个 数值 就 会 很 高 。 通 常 我 们 会 根据 不 同情 况 下 对 这 2 个 指标 
的 不 同 重视 程度 来 生成 分 类 模型 。 在 本 例 中 ， 这 2 个 指标 都 很 重要 ， 所 
以 我 们 需要 一 个 同时 包含 这 2 个 指标 的 高 次 元 指标 。 其 中 Fl 值 就 是 这 
样 一 个 用 于 整体 评价 的 指标 ， 它 将 Precision 和 Recall 等 价 来 看 待 。F1 
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值 由 下 式 计 算得 到 。 


2 
下 
Recall Precision 


这 样 我 们 就 可 以 通过 F1 值 来 讨论 噪声 的 阔 值 条 件 了 。 





Fl 值 = 





一 recall 一 preclsion 一 F 

































































上 图 的 横 轴 表示 “行为 次 数 的 累积 期 间 ”， 我 们 将 “行为 次 数 的 效 
值 ” 设 定 在 1~1000， 然 后 使 用 过 去 1 ~ 30 天 的 累积 PV 数 ( Page View， 
用 户 访问 Web 服务 器 的 次 数 ) 生成 分 类 模型 并 得 到 分 类 结果 。 纵 轴 分 别 
表示 Precision 、Recall 和 了 1 值 。 从 图 中 可 以 看 出 ， 如 果 提 高 阔 值 ， 就 会 
导致 Precision 下 降 而 Recall 上 升 。 如 果 延 长 累积 期 间 ，Precision 的 值 会 
逐渐 减 小 。 正 如 之 前 所 说 的 ， 这 二 者 是 一 种 此 消 彼 长 的 关系 。 


























虽然 我 们 得 到 了 上 图 的 结果 ,但 是 因为 从 图 中 没 能 看 出 Fl 值 的 明 
显 峰值 ， 所 以 我 们 将 各 种 条 件 下 生成 的 分 类 模型 的 Fl 值 由 大 到 小 排序 ， 
排名 前 10 的 Fl 值 如 下 表 所 示 。 

















累积 天 数 PV 数 阅 值 Precision [| F1 值 
3 7 0.404 0.72 0.5176 
3 6 0.403 0.715 0.5155 
3 8 0.406 0.705 0.5153 
3 5 0.401 0.72 0.5151 
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( 续 ) 
累积 天 数 PV 数 阔 值 Precision Recall F1 值 
3 9 0.407 0.7 0.5147 
3 10 0.409 0.694 0.5147 
3 11 0.411 0.688 0.5146 
3 4 0.398 0.726 0.5141 
3 人 0.415 Qi:677 0.5146 
3 12 0.413 0.682 0.5145 























根据 上 表 可 以 得 知 ， 在 “ 刚 过 去 的 3 天 中 相应 时 间 的 累计 行为 次 数 
小 于 7 次 时 ， 用 户 在 第 2 天 的 相同 时 间 不 会 来 访 ， 当 大 于 等 于 7 次 时 ， 
则 会 来 访 ” 这 一 分 类 模型 中 ，F1 值 很 高 。 

我 们 将 上 述 计 算得 出 的 条 件 传 达 给 了 游戏 的 策划 人 员 和 运营 人 员 。 
经 过 他 们 的 调查 ,我 们 得 知 在 游戏 中 ， 虽然 根 据 起 始 页 面 的 不 同 有 所 不 
同 ， 但 在 用 户 达 到 能 够 获得 奖励 的 登录 奖励 页 面 之 前 ，PV 数 为 5~6 次 。 
而 对 于 使 用 最 近 3 天 作为 国 值 ， 他 们 指出 这 种 做 法 的 理由 不 充分 。 

因此 我 们 进行 了 进一步 的 调查 ， 发 现 数据 中 有 一 两 天 在 相同 时 间 段 
的 访问 为 0 的 情况 较 多 。 也 就 是 说 ， 这 一 两 天 该 用 户 处 于 休息 的 状态 ， 
而 该 用 户 小 于 等 于 6 次 的 PV 数 实际 上 来 自 于 该 用 户 在 某 一 天 的 偶然 来 
访 。 因 此 我 们 在 处 理 行为 日 志 时 ， 将 单位 时 间 内 PV 不 到 7 次 的 数据 视 
为 是 噪声 数据 ， 并 将 此 数据 的 值 置 为 0。 


选 定 所 用 的 学 习 算 法 


在 本 例 中 ， 我 们 还 有 几 天 的 时 间 来 准备 新 的 策划 方案 ， 因 此 我 们 选 
取 了 5 种 有 代表 性 的 机 器 学 习 算 法 来 对 类 别 变量 进行 预测 。 这 5 种 算法 
分 别 是 : “逻辑 回归 ”kk 近邻 法 ”“ 朴 素 贝 叶 斯 分 类 器 "”“SVM” 和 “ 随 
机 森林 ”。 下 面 我 们 就 来 判断 在 “根据 过 去 7 天 的 行为 日 志 来 推断 第 2 
天 的 用 户 来 访 时 间 ” 这 一 案例 中 哪 种 算法 的 效果 最 好 。 

我 们 对 3 ~ 9 天 前 的 行为 日 志 进 行 了 去 噪声 数据 的 处 理 ， 并 使 用 上 
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述 各 种 机 器 学 习 算 法 生成 预测 模型 ， 预 测 2 天 前 用 户 什么 时 候 来 访 。 将 
该 预测 模型 用 于 经 过 噪声 处 理 的 2 ~ 8 天 前 的 一 周 的 行为 日 志 ， 推 断 用 
户 昨 天 什么 时 候 来 访 ， 并 计算 同 实际 的 数据 的 一 致 率 。 这 其 中 的 数据 加 
工 方法 和 10.3 节 以 及 10.4 节 中 介绍 的 方法 一 样 。 
为 了 使 机 器 学 习 算 法 能 够 获得 较 好 的 性 能 ， 我 们 需要 将 预测 模型 的 
各 种 结果 所 对 应 的 数据 调整 到 大 致 一 样 的 数量 。 在 本 例 中 ， 也 就 是 将 数 
据 中 “来 访 ” 的 人 数 和 “未 来 访 ” 的 人 数 调 整 到 大 致 相同 。 对 于 2 天 前 
的 各 个 时 间 段 ， 我 们 将 7PV 设置 为 阔 值 ， 并 对 数据 进行 抽样 ， 使 数据 中 
“来 访 ” 和 “未 来 访 ” 的 人 数 保 持 一 致 。 然 后 根据 抽样 数据 的 大 小 ， 将 
抽样 后 的 数据 分 为 训练 数据 和 测试 数据 两 部 分 。 接 着 使 用 某 个 用 户 群 的 
训练 数据 生成 预测 模型 ， 预 测 用 户 在 2 天 前 来 访 的 各 个 时 间 ， 并 将 这 个 
预测 模型 用 于 剩余 的 用 户 群 的 测试 数据 ， 验 证 该 模型 的 精度 。 另 外 ,我 
们 还 可 以 使 用 其 他 期 间 的 数据 来 验证 该 模型 的 预测 精度 。 
训练 数据 ”测试 数据 ”验证 数据 ”训练 数据 ”测试 数据 ”验证 数据 






































的 一 致 率 的 一 致 率 的 一 致 率 ”的 标准 差 ”的 标准 差 ”的 标准 差 


















































逻辑 回归 0.682 0.701 0.703 0.026 0.031 0.031 
0 0.839 0.789 0.799 0.030 0.034 0.031 
| 二 0.791 0.802 0.810 0.021 0.035 0.032 
0.761 0.801 0.806 0.021 0.041 0.040 
ai 0.736 0.815 0.817 0.034 0.056 0.054 
有 0.629 0.908 0.908 0.021 0.025 0.025 
) 0.735 0.836 0.838 0.024 0.036 0.035 
( | 核 ) 0.605 0.842 0.843 0.063 0.142 0.143 
随机 森林 0.921 0.911 0.914 0.017 0.026 0.025 














上 表 中 明确 给 出 了 各 个 学 习 算 法 的 精度 。 可 以 看 出 ， 对 于 本 例 中 的 
数据 ， 使 用 各 种 核 函 数 的 SVM 和 随机 森林 算法 的 预测 精度 最 高 。 
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解决 对 策 























追加 队伍 推荐 的 功能 


本 例 的 数据 分 析 属 于 第 2 童 中 所 说 的 “自动 化 * 最 优化 ”这 一 
类 。 通 过 比较 各 种 机 器 学 习 算 法 的 预测 精度 ， 我 们 决定 使 用 随机 森林 算 
法 来 生成 预测 模型 ， 并 对 每 个 用 户 在 第 2 天 的 某 个 时 间 段 来 访 的 概率 做 
出 预测 。 

通过 和 别 的 部 门 商讨 ， 最 终 基 于 预测 数据 在 游戏 中 添加 了 为 用 户 推 
荐 队伍 的 功能 ， 当 某 个 用 户 在 搜索 可 以 加 入 的 队伍 时 ， 我 们 对 第 2 天 该 
用 户 可 能 到 来 的 时 间 段 进行 预测 ， 并 向 其 推荐 相同 时 间 段 有 较 多 人 同时 
在 线 的 队伍 。 
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在 本 章 中 ， 我 们 使 用 机 器 学 习 的 方法 进行 了 数据 分 析 。 本 章 的 案例 
和 第 9 章 一 样 ， 是 一 种 数据 探索 型 的 数据 分 析 ， 因 此 需要 在 数据 处 理 和 
数据 加 工 上 花费 较 多 的 精力 。 另 外 ， 本 例 还 充分 考虑 了 “自动 化 最 优 
化 ”的 特性 。 在 顺利 得 到 预测 模型 后 ， 为 了 使 结果 能 够 切实 地 改善 我 们 
的 服务 ， 还 需要 和 游戏 的 策划 人 员 进 行 深入 的 商讨 或 者 头脑 风暴 。 在 互 
联网 行业 当中 ， 这 也 会 牵涉 到 游戏 的 开发 人 员 ， 因 此 还 需要 和 他 们 进行 
讨论 。 

总 之 ,在 第 9 章 和 第 10 章 中 介绍 的 内 容 属于 数据 挖掘 的 范畴 ， 而 
这 正 是 数据 分 析 人 员 能 够 发 挥 自身 价值 的 地 方 。 然 而 ， 数 据 处 理 方面 的 






































内 容 对 外 行人 而 言 很 难 理解 ， 所 以 需要 数据 分 析 人 员 和 服务 的 策划 人 员 
能 给 出 详细 的 说 明 ， 或 者 在 必要 时 与 其 他 人 员 开展 头脑 风暴 。 


























分 析 流 程 第 10 章 中 数据 分 析 的 成 本 
现状 和 预期 低 
发 现 问题 低 
数据 的 收集 和 加 工 高 
数据 分 析 高 
解决 对 策 高 
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详细 的 只 代码 

















习 











第 10 章 全 部 内 容 的 R 代码 非常 复杂 且 代 码 量 较 大 ， 由 于 篇 幅 的 关 
系 ， 我 们 就 不 给 出 全 部 的 代码 了 。 这 里 将 输出 的 结果 省 略 ， 只 保留 到 
10.3 节 为 止 的 数据 加 工 的 部 分 ， 以 及 在 选 定 机 器 学 习 算 法 时 使 用 的 随机 
森林 算法 的 部 分 。 下 面 我 们 来 介绍 这 部 分 的 R 代码 。 




































































# 生成 用 于 读 入 中 间 数 据 的 函数 
pranmy (tou) 
library (foreach) 








readActionHourly <- function(app.name, date.from, date.to) { 
date.from <- as.Date (date.from) 
date.to <- as.Date (date.to) 
ldply (foreach(day = seq.Date(date.from, date.to, by = "day'"), 
combine = rbind) %do% 
{ 
f <- sprintf ("sample-data/section10/action hourly/%s/%s/action 
hourly.tsv'", app.name, day) 
read.csv(f, header = T, stringsAsFactors = F, sep = "\t") 
}) 
} 























# 用 生成 的 函数 读 入 数据 
action.hourly <- readActionHourly ("game-01", "2013-08-01", "2013-08-08" 
head (action.hourly) 





# 将 数据 整理 成 以 时 间 段 为 列 的 形式 

library (reshape2) 

dates <- unique(action.hourly$1log date) 

train.list <- lapply(1: (length(dates) - 1), function(i) { 
day <- dates[i] 
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octionmourly Lactlonanour ly lomdate day onl 
df"dease Gr user lomour ale var CU 
Fume Eilon (Felsel( eum) 0 
) 
namesi(ode) = (ue easeeon O02 
df}) 
nead (train.1ist[[l1])]) 














# 生成 用 于 说 明 的 数据 

train.data <- train.list[[1]] 

Ferme lng ra 
RISE ill 
ma < meroe (trolnadatoar ty seo bl 二 站 TI) 
train.datal[lis.na(train.data)] <- 0 








} 


names (train.data) 














# 生成 用 于 作答 的 数据 
ans0 <- action.hourly [action.hourly$1log date == dates[length(dates)], ] 














# 将 数据 整理 成 以 时 间 段 为 列 的 形式 
as oeast (anso nn us ESRIOUCCAE SUES7 SCOUmTCL 
FOODEETIORCS | 
utelseltaum(e) = 7 DO) 
}) 
namesi(ans) ee oe useciid easteo( en 02 
head (ans) 

















# 与 用 于 说 明 的 数据 合并 
manmmoaban meueel(l ranma onan Dy rn 
rannegdateallem na (tualinddatal a0 











names (train.data) 
head (train.data) 








# 按 每 个 时 间 段 构建 模型 ( 随机 森林 ) 
library (randomForest) 
library (caret) 


























# 自 定义 学 习 算 法 
Eateeonerol eranmeontso Nneehod uo 0 numbere = 0) 














# 随机 森林 算法 的 学 习 过 程 
lO eo 
di aimneaaEal ee (asteon asteo( a 
af df[df[l, neol(df)] == 1, )] 


‘ohare = eka lke | ree (ebay se Mo | 
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dE dromoriglsanele (neow(tosorliag now(ar yl 

SE rena(dEl do 

Taberamm( = eoldi = ne on 
methogde= unepnooes onecnterm seal 
treeoneeol in eomeol) 

EE 


}) 


# 显示 根据 生成 的 模型 得 到 的 预测 值 和 实际 值 的 比较 结果 

Fforest 
result .rf <- predict (rf.fit.list[[(i + 1)]] $finalModel, train.data) 
resulterf red ec felse(resule rt = 0 ET 0) 





prumtl(eoniusienVMat i (result rt ed Etroamatalb pascteo en 


sl 


国 关 于 随机 森林 算法 

随机 森林 算法 是 集成 学 习 方 法 的 一 种 ， 可 用 于 实现 分 类 和 回归 。 

例如 ， 根 据 过 去 的 访问 日 志和 第 2 天 用 户 是 否 来 访 的 数据 集 ， 可 以 
学 习 得 到 分 类 模型 ,再 利用 这 个 分 类 模型 ， 可 以 预测 用 户 明天 是 否 会 
访 。 当 我 们 预测 的 对 象 为 是 否 来 访 这 种 0/1 离散 值 的 情况 时 ， 这 就 是 一 
个 分 类 问题 。 

但 是 如 果 我 们 需要 根据 过 去 的 访问 日 志和 第 2 天 用 户 来 访 了 儿 次 的 
数据 集 去 预测 明天 用 户 会 来 访 多 少 次 ， 因 为 预测 的 对 象 是 像 来 访 几 次 这 
种 连续 值 的 情况 ， 所 以 就 是 一 个 回归 问题 。 

集成 学 习 通 常 是 将 多 个 精度 不 高 的 模型 综合 起 来 ， 每 个 模型 都 会 有 

输出 结果 ， 而 最 终 的 结果 采取 少数 服从 多 数 的 原则 ， 从 而 得 到 精度 更 高 
的 模型 。 如 果 是 分 类 问题 ， 那 么 就 是 少数 服从 多 数 。 如 果 是 回归 问题 ， 
则 是 求 所 有 模型 输出 的 平均 值 。 
使 用 随机 森林 算法 ， 先 随机 地 对 数据 进行 抽样 ， 然 后 根据 抽样 数据 
建立 决策 树 ， 多 次 重复 以 上 步骤 即 可 得 到 多 棵 决策 树 ， 再 将 这 些 决策 树 
统合 起 来 最 终 得 到 一 个 高 精度 模型 。 这 也 是 “随机 森林 ”这 一 名 称 的 由 
来 。 有 具体 的 模型 生成 步 又 如 下 所 示 。 
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QD 从 数据 集中 抽样 得 到 N 组 抽样 数据 

Q@ 从 数据 集中 抽样 得 到 M 个 变量 

@) 生成 决策 树 

Q@ 重复 之 前 的 中 ~ @) 

@) 将 需要 预测 的 数据 提供 给 4 中 得 到 的 所 有 决策 树 

@@) 根据 @@) 的 结果 ， 将 多 数 模型 输出 的 那个 或 者 平均 值 作为 预测 结果 


国 对 R 语 言 的 随机 森林 算法 及 其 输出 的 解释 

通过 trainControl 函数 ,我们 可 以 自 定义 机 器 学 习 的 过 程 。 其 中 
参数 me thod 用 来 指定 学 习 的 算法 ， 参 数 p 用 来 指定 用 于 学 习 的 数据 占 
数据 总 体 的 比例 ，number 用 来 指定 需要 反复 执行 的 次 数 。 那 么 之 前 所 
介绍 的 RR 代码 的 意思 就 是 “使 用 整体 数据 的 75% 来 进行 学 习 ， 剩 下 的 
25% 用 来 做 模型 验证 ， 使 用 LGOCY 的 方法 反复 进行 30 次 学 习 ”。 

而 在 实际 的 学 习 执 行 过 程 中 ， 我 们 使 用 的 是 train 函数 。 在 之 前 的 
R 代码 中 ， 我 们 将 method 设 为 “rf”， 表 示 使 用 的 是 随机 森林 算法 ， 并 
使 用 preProcess 参数 对 数据 进行 标准 化 ， 最 后 通过 参数 trcontrol 将 
之 前 设 定 的 fit.control 内 容 传人 孙 数 。 
使 用 上 面 生成 的 模型 进行 预测 ， 并 将 预测 值 和 实际 值 进行 比较 。 这 
里 我 们 使 用 confusionMatrix 函数 对 各 个 时 间 段 的 结果 进行 评价 。 

之 前 的 了 R 代码 中 随机 森林 算法 的 输出 结果 如 下 所 示 。 

































































## 

## Reference 
## Prediction 0 1 
### 0 378 21 
## 1 90 46 
### 

: ## Accuracy : 0.793 
间 # 95% CI : (0.756, 0.826) 
## No Information Rate : 0.875 
## P-Value [Acc > NIR] : 1 
## 
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通过 执行 confusionMatrix 函数 ， 首 先 可 以 得 到 如 下 所 示 的 实际 
值 和 预测 值 的 交叉 统计 列表 。 


0 ( 实际 值 ) 1 ( 实际 值 ) 


0 ( 预测 值 ) 378 21 

















1 ( 预测 值 ) 90 46 


在 本 例 中 ,在 由 随机 森林 算法 生成 的 模型 中 ， 预 测 值 为 1 (来 访 ) 
的 用 户 位 于 “1 (预测 值 ”这 一 行 ， 而 实际 来 访 的 用 户 位 于 “1 (实际 
值 》 这 一 列 。 

也 就 是 说 ， 预 测 值 和 实际 值 都 为 “1” 的 用 户 有 46 名 ， 这 意味 着 我 
们 预测 这 些 用 户 会 来 访 且 实际 上 他 们 确实 也 都 来 访 了 。 而 预测 值 和 实际 
值 都 为 “0” 的 用 户 有 378 名 ， 这 意味 着 我 们 预测 这 些 用 户 不 会 来 访 且 
实际 上 他 们 确实 没有 来 。 接 着 我 们 来 看 看 模型 的 准确 率 Accuracy。 在 
上 面 的 交叉 统计 列表 中 ， 可 以 通过 〈 预测 准确 的 次 数 / 总 数 ) 计算 得 出 。 
本 例 中 的 准确 率 为 : 























(378 + 46)/ (378 + 21 + 90+46)=0.793 
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如 何 恢复 销售 额 ? 
哪 种 广告 的 效果 会 更 好 ? 
游戏 用 户 为 何 会 流失 ? 
如 何 让 组 队 游戏 充满 乐趣 ? 


一 线 数 据 分 析 师 教 你 用 数据 搞定 ! 


本 书 由 实战 经 验 丰富 的 两 位 数据 分 析 师 执笔 ， 结 合 8 个 真实 的 案 
例 ， 详 细 解 说 了 通过 数据 分 析 解 决 各 种 商业 问题 的 过 程 。 特 别 是 书 
中 使 用 的 数据 都 是 未 经 清洗 的 原始 数据 ， 对 如 何 加 工 数据 以 用 于 分 
析 也 进行 了 详细 的 介绍 。 读 者 可 以 使 用 R 语 言 实际 操 作 数 据 ， 体 验 真 
实 的 数据 分 析 流 程 。 


热线 : (010)51095186 转 600 


ES 全 计算 机 /数据 分 析 _ISBN 978-7-115-45453-9 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 
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